НАУЧНО-ИССЛЕДОВАТЕЛЬСКИЙ ПРОЕКТ
" М И К Р О Ф О Н "
РАЗРАБОТКА ТЕХНОЛОГИИ ПО ОБРАБОТКЕ АКУСТИЧЕСКОЙ ИНФОРМАЦИИ
КОНТЕКСТНОЙ ЗАМЕНОЙ "АНАЛОГОВЫХ СИНОНИМОВ"
НА БАЗЕ НЕЙРОННОГО ПОДХОДА
1.1. Организация: Институт проблем управления РАН.
Руководители работ: Чистяков А.А., Бодякин В.И., 37 лаб.
Адрес: 117806, Москва, Профсоюзная ул. 65,
Институт проблем управления, РАН
Телефон раб.: (095) 334-92-39
Сегодня мы уже привыкли к редактированию текстовой информации при помощи компьютеров (настольные издательские системы) и уже не можем без них. Нейронный подход (нейрокомпьютер) позволяет реализовывать обработку аналогового (акустического) сигнала, аналогичную вышерассмотренной обработке текста компьютером.
Принципиально новые такие привлекательные стороны нейрокомпьютера, как:
- обучение, которое заменяет трудоемкое программирование;
- способность к обобщениям (обработка больших потоков слабо структурированной информации);
- более высокие (на несколько порядков) технические характеристики (скорость обработки, повышенная надежность, монотонно возрастающий коэффициент сжатия и пр.);
- возможность необычайно широкого распараллеливания решения практически любой задачи;
- сжатость сроков разработки и унифицированности разрабатываемого программного обеспечения,
все это ставит нейронный подход вне конкуренции, в частности, и для разработки технологии по обработке акустической информации контекстной заменой - проект "Микрофон".
Кратко суть социально-коммерческую проекта "Микрофон" можно пояснить следующим образом. Для высококлассных обладателей "золотых голосов" (певцы, дикторы, ...), со временем, часто у этих категорий людей () происходит ухудшение акустических характеристик их голоса (помимо спектральных), это обычное "старение". Используя эталонные высококачественные образцы акустических произведений (песни, арии, голоса музыкальных инструментов, ...) в период апогея "золотых голосов" и совмещая с их, например, сегодняшним состоянием, нейрокомпьютер строит таблицу "синонимов", которая затем "запаивается" в персональный микрофон. Далее, акустический сигнал сегодняшнего уровня (состояния), в режиме реального времени трансформируется в свое "идеальное состояние".
Помимо возврата "идеального состояния" голоса, возможно "становление" идеального голоса для "новичков", а также, возможно использование данного приема и для музыкальных (электронных) инструментов. Возможно предложить еще множество приложений, вплоть до диагностики, когда определенные шумы преобразуются в акустическое - речевое предупреждение об опасности. Но, резюмируя вышесказанное, мы считаем, что восстановление "золотых голосов" является самой ближайшей задачей практически, и практически сразу окупаемым.
Комплекс задач проекта по обработке акустической информации распадается на ряд автономных задач.
Работа с текстурами:
- автоматическое разбиение на классы;
- выделение новых текстур;
- выделение подобразов в новых текстурах;
Работа с выделенными (помеченными) образами:
- разбиение на классы;
- выделение новых образов в классе;
- выделение новых классов образов;
- разложение новых образов на множестве уже принятых подобразов;
- преобразования инвариантные к "доплеровскому эффекту";
- преобразования инвариантные к повороту, сдвигу и масштабу с указанием (именем-образом) данного преобразования;
Интеграция различных классов акустических образов и их тестовых или других описаний ("мультимедиа") в новые гиперобразы:
- текст + звук;
- звук + текст;
Синтез акустики по их текстовому (схемному, нотному описанию):
- синтез звука по его составляющим;
- синтез звука по его текстовому описанию.
Анализ акустического сигнала (разложение на составляющие):
- представление звука в виде текстового описания;
- анализ звука и формирование его схемного представления;
Сужение количества ключевых компонент при идентификации конкретного образа в различных классах образов (предметных областях) при использовании понятия контекста:
- пространственного:
повышение надежности идентификации в условиях повышенных помех, свыше 50%;
- временного:
предыдущая область активированных нейронов имеет более низкий порог активации, что также уменьшает количество ключевых компонент для идентификации конкретного образа.
Нейронные сети обычно рассматриваются как особый тип многопроцессорных систем, где отдельные нейроны соответствуют отдельным процессорам, а синапсы соответствуют каналам обмена данных.
Это позволяет реализовать новые архитектуры информационно-вычислительных систем, в первую очередь, параллельные многопроцессорные архитектуры. Нейрокомпьютер - это программно-техническая система (ее можно также назвать специализированная ЭВМ), которая реализует некоторую формальную модель естественной нейронной сети. Таким образом, необычные свойства нейрокомпьютеров являются модельным отображением тех особенностей, которые присущи процессам обработки информации в живых системах.
Приложение 1.
Предполагаемая стоимость работы по статьям
Проект рассчитан на два года (1995-1996 гг.)
Головной исполнитель - Институт проблем управления РАН.
Ресурсы, необходимые для реализации проекта (в ам.долл.) $
Работа с текстурами:
- автоматическое разбиение на классы ......................
- выделение новых текстур .................................
- выделение подобразов в новых текстурах ..................
Работа с выделенными (помеченными) образами:
- разбиение на классы .....................................
- выделение новых образов в классе ........................
- выделение новых классов образов .........................
- разложение новых образов на множестве уже принятых подобразов ........................................................
- преобразования инвариантные к "доплеровскому эффекту" ...
Интеграция различных классов акустических образов и их тестовых или других описаний ("мультимедиа") в новые гиперобразы:
- текст + звук ............................................
- звук + текст ............................................
Синтез акустики по их текстовому (схемному, нотному описанию):
- синтез звука по его составляющим .......................
- синтез звука по его текстовому описанию ................
Анализ акустического сигнала (разложение на составляющие):
- представление звука в виде текстового описания ......
- анализ звука и формирование его схемного представления ..
Сужение количества ключевых компонент при идентификации конкретного образа в различных классах образов (предметных областях) при использовании понятия контекста:
- пространственного .......................................
- временного ..............................................
Численность коллектива исполнителей: 1995-96 гг. - 3-5 чел.
Для выполнения данного проекта необходимо следующее финансовое обеспечение:
1995 г. - оплата труда специалистов ...............
оплата оборудования САПР (капитальные вложения) ...............................
1996 г. - оплата труда специалистов ...............
оплата оборудования САПР (капитальные вложения) ...............................
Итого:...................................................