ЛИНГВИСТИЧЕСКИЕ
ОСНОВЫ ДЛЯ
ФОРМИРОВАНИЯ
МИРОВОГО
ИНФОРМАЦИОННОГО
ПРОСТРАНСТВА
(Бизнес план разработки системы НСС перевода)
На рубеже XX и XXI вв., основной, определяющей характеристикой развития человечества в информационной области, по-видимому, будет повсеместная интеграция средств информатики не только в национальных границах, но и в международном плане. Автоматизированный перевод можно рассматривать как один из способов создания многоязычного тезауруса.
В ближайшее десятилетие производители ВТ (Интел и др.) планируют разработать чип с миллиардом транзисторов, что в 100 раз сложнее самых совершенных интегральных схем, сконструированных в конце 90-х. К 2020 году информационные технологии распространятся на каждый уголок планеты. Появится инструментальная база для построения автоматизированных систем надежного многоязыкого перевода (в том числе и для синхронного). Это немедленно положительно отразится в многоязыком мира. Перевод в реальном времени станет вполне надежным. Начнется непрекращающийся разговор на планетарном уровне, вавилонская немота будет преодолена. Начнется великое взаимопроникновение идей и, как следствие, образуются новые точки пересечения всех цивилизаций, и родится новая цивилизация.
Но на пути машинного перевода стоят огромные трудности, которые отнюдь не уменьшаются с бурным развитием кибернетики хотя лет 10 назад большинство специалистов рисовали самые радужные перспективы на самое ближайшее будущее. Однако задача оказалась на много сложнее, чем это показалось в начале.
Человеческий мозг по своей сложности и мощности на несколько порядков превышает современные ЭВМ. В ходе эволюции у мозга выработалась специализация - это распознавание визуальных и слуховых образов" (хотя и не только таких образов..). Что касается работы мозга по переводу с одного языка на другой - это сложнейшая интеллектуальная работа, весьма слабо реализованная в существующих программах.
Например, чтобы заменить переводчика для "живого" синхронного перевода, компьютеру необходимо решить в совокупности три задачи:
1. Распознавание устной речи.
2. Перевод с одного языка на другой.
3. Синтез речи.
Рассмотрим состояние дел по каждому вопросу.
1. Существующие программы распознавания речи для звуковых плат (типа Sound Blaster) ограничены словарем в несколько сотен слов. Их следует произносить, подчеркнуто разделяя интервалами. Кроме того, программу необходимо сначала настроить на манеру произношения того человека, с кем ей предстоит иметь дело. Можно использовать и специализированный программно-аппаратный комплекс. В этом случае вместо стандартной звуковой платы применяется оригинальная сопроцессорная плата. Помимо выполнения речевых команд для навигации в среде Windows, что стало уже обычным делом для систем распознавания речи, например, Kurzweil Voice, позволяет диктовать непосредственно в ходе работы прикладной программы. При этом необходимо, чтобы между словами были короткие паузы.
2. Существующие на сегодняшний день программы автоматического перевода не обладают совершенством. Прежде всего это связано со сложностью задачи (многовариантность перевода, для правильности которого мозг человека учитывает весь свой предыдущий жизненный опыт).Среди лучших современных программ, ориентированных на рынок ПК, является система автоматического перевода Stylus. Но только создание программ, обладающих зачатками искусственного интеллекта, позволит окончательно решить эту задачу. По этому пути и пошли передовые программисты, создающие современные программы для перевода (естественно, в относительно узких рамках данной задачи). Подобные программы строятся на так называемых развивающихся алгоритмах, в частности, нейронных сетях.
3. Задачи синтеза речи компьютером на сегодня уже удовлетворительно решены.
Предложения нашей группы касаются решения задач автоматизированного перевода и распознавания на базе нейросемантической парадигмы [ ].
Рассмотрим
задачу
построения
системы
автоматизированного
перевода.
Первый этап -
это
построение
нейросемантического
пространства
переводимых
предметных
областей.
Для этого в
НСС вводятся
всевозможные
текстовые
материалы
предметных
областей,
автоматически
преобразуясь
многомерный
гипертекстовый
НСС-граф.
Затем, между гипертекстовыми НСС-графами НСС "А" и НСС "Б" устанавливаются соответствия образов (слов) между этими предметными областями "А" и "Б".
Таким образом, система автоматизированного перевода информации из одной предметной области в другую ("А" ® "Б" или "Б" ¬ "А" ) построена.
Время ее построения и заполнения (тезаурус в ~ 100 тыс. статей "А" и "Б") по НСС технологии ~ 12 мес.
Принцип работы системы НСС-перевода заключается во вводе переводимого текста, относящегося к одной из предметных областей ("А" или "Б" ), в соответствующий ему НСС-граф ("А" или "Б" ).
При этом, через межграфовые связи осуществляется семантическая активация в смежном НСС-графе ("Б" или "А" ). Признаком окончания и уровнем качества перевода служит количество активированных нейросемантических вершин в данном НСС-графе ("Б" или "А" ). Одна вершина говорит об однозначном (качественном) переводе в рамках введенного в НСС-графа тезауруса. В случае если таких вершин несколько, после окончания ввода переводимого текста, задаются уточняющие вопросы, приводящие к однозначности. Уточняющие вопросы (как и дополнительные примеры текстов и их переводов) входят в процесс обучения.Повышение качества перевода системы НСС-перевода легко достигается в процессе ее обучения. При этом качество перевода может неограниченно повышаться. При указанном объеме тезауруса, оно будет соответствовать уровню студента старшекурсника языкового вуза.
Скорость перевода 1-10 Кб/сек.
Системы НСС-перевода могут быть как парные ("А"
® "Б" или "Б" ¬ "А" ), так и через универсальный метаинтернациональный язык. Ограничений на языки для их включения в систему ИСС-перевода не известно (теоретически не существует).Исполнители: 3-5 руководителей проекта, 4-5 программистов высокого уровня, 3-5 лингвистов на каждую пару языков, технический персонал 10-15 человек.
Более подробный бизнес-план находится в состоянии проработки. В случае заинтересованности в нем каких-либо научно-производственных структур можем выслать его в состоянии готовности на текущий момент.
=============================================================================
В процессе этой работы могут быть решены дополнительные научные задачи, в частности, предложения по гармонизирующей модификации существующих языков в рамках их национальной культуры, построение универсального (идеального) метаинтернационального языка и др.
Задача построения системы распознавания речи, как акустического сигнала, также строится на НСС технологии ~ 6-12 мес. Здесь основной элемент, это классическое обучение [ ]. Бизнес план разработки системы НСС- распознавания речи.
С уважением, Информоград 2001