Розпізнавання мовлення
Розпізнавання мови
Розпізнавання голосу
Розпізнавання диктора
Пошук ключових слів
Програма розпізнавання мовлення
|
Панівний підхід до розпізнавання мовлення
ґрунтується на генеративній моделі аналізу та розпізнавання образів.
Ідея аналізу через синтез для багатьох задач розпізнавання мовленнєвого сигналу виявилася найбільш продуктивною
порівняно з дискримінативною моделлю.
Теорія генеративної моделі успішно застосовується для оброблення та розпізнавання
різного роду об’єктів, полів, сигналів і зображень, зокрема в радіофізиці та біоінформатиці.
У процесі розпізнавання вхідний сигнал перетворюється у послідовність векторів-ознак,
які надходять з інтервалом, наприклад, 10 мс.
Таким чином формуються відліки сигналу, з якими далі працює розпізнавач або декодер,
що реалізує алгоритм за певною схемою розпізнавання.
Будь-який розпізнавач використовує в роботі базу даних і знань.
При перетворенні мовлення на текст для найбільш поширеної схеми розпізнавання формуються:
- алфавіт базових елементів – фонем,
для кожної фонеми за мовленнєвим корпусом методами навчання-самонавчання завчасно створюється
акустична модель;
- словник,
для слів з якого на початку розпізнавання будуть складені композитні акустичні моделі
за фонемною транскрипцією;
- лінгвістична модель, яка обмежує допустимі послідовності слів
та може мати детермінований або ймовірнісний характер, завчасно будується за текстовим корпусом.
Розпізнавач по суті декодує послідовності фонем,
на які накладаються обмеження словником і лінгвістичною моделлю.
З надходженням нового відліку сигналу
методом направленого перебору,
який реалізується варіантом алгоритму динамічного програмування,
генеруються модельний сигнал всіх допустимих гіпотез і відкидаються неперспективні гіпотези – ті,
які найменш схожі на спостережуваний сигнал.
Відповідь розпізнавання формується після декодування фонеми-паузи і
може мати неоднозначний характер або зафіксувати відмову від розпізнавання.
Алгоритми подальшого оброблення відповіді розпізнавання можуть включати
прогнозування пунктуації, регістру слів, змістовну та емоційну інтерпретацію тощо.
Основним недоліком алгоритму розпізнавача,
в якому формуються композитні акустичні моделі слів,
є перевантаження акустичної складової декодера.
Навантаження зростає при збільшенні словника,
додаванні варіантів вимови слова,
розширенні лінгвістичної моделі та
врахуванні явищ спонтанного мовлення.
Тому для слов’янських мов, які використовують до десяти разів більше словоформ
та мають відносно вільний порядок слідування слів,
актуальним залишається пошук нових схем і методів розпізнавання.
Література для подальшого ознайомлення
Книги:
-
Винцюк Т.К., Анализ, распознавание и смысловая интерпретация речевых сигналов. Киев: Наукова думка, 1987, 264 с.
Монографія піонера в теорії розпізнавання образів, керівника багатьох прикладних розробок
проф. Тараса Вінцюка. Вітчизняна класика.
Плануємо отримати згоду від спадкоємців і зробити монографію доступною для спільноти.
Статті:
-
M. Sazhok,V. Robeiko, D. Fedoryn.
Distinctive features for Ukrainian real-time speech recognition system –
УкрОбраз’2014.
Найбільш свіжа публікація, що описує систему розпізнавання з обсягом словника у 200 тисяч слів.
Розглядаються особливості української мови. Представлено web-сервіс перетворення мовлення на текст.
Завантажити pdf-файл.
-
В.В. Робейко, М.М. Сажок.
Розпізнавання спонтанного мовлення на основі акустичних композитних моделей слів у реальному часі. –
"Штучний інтелект", № 4, 2012 (українською), УкрОбраз’2012 (in English).
Описується система диктування на 100 тисяч слів.
Завантажити pdf-файл: українською
або англійською мовами
-
Mykola Sazhok, Valentyna Yatsenko, Taras Vintsiuk.
Interpretation of Continuous Ukrainian Pronunciation for Spoken Dictionary-Interpreter. –
Proceedings of the 12th International Conference on Speech and Computer – SpeCom’2007, Moscow, 2007, pp. 170-175.
У статті йдеться про методи і алгоритми інтерпретації тобто розуміння мовленнєвого сигналу та розробку усного фразника-перекладача.
Завантажити.
-
Taras Vintsiuk, Mykola Sazhok.
Multi-Level Multi-Decision Models in ASR. –
Proc. Int. Conference Specom'2005.
Пропонуються методи і алгоритми,
що знімають навантаження з акустичної моделі,
і це дає змогу практично необмежено розширювати словник систем розпізнавання мовлення.
Завантажити
-
Mykola Sazhok, Nina Vasylieva, Taras Vintsiuk, Gerard Chollet.
Acoustic-Phonetic Model Application for Syllable Speech Recognition Output Post-Processing. –
Proceedings of the 12th International Conference on Speech and Computer – SpeCom’2007, Moscow, 2007, pp. 182-187.
Описуються методи і алгоритми поскладового розпізнавання мовлення.
Завантажити.
-
М.М. Сажок, Р.А. Селюх, О.А. Юхименко.
Адаптація до голосу диктора на основі гендернозалежних
акустичних моделей фонем для української мови. –
Деcята Всеукраїнська міжнародна конференція УкрОбраз’2010. - Київ, 2010, с. 59 - 62.
Стаття присвячена проблемі "звикання" системи розпізнавання до нового диктора.
Завантажити
Більше файлів, серед яких є й новіші статті,
знаходяться у директорії публікацій.
Ще рекомендуємо відвідати електронну версію
Збірника праць конференцій УкрОбраз.
Знаходьте статті в алфавітному покажчику авторів або за розділами.
Також беріть участь на форумі КіберМови в темі
Теоретичні основи розпізнавання мовлення.
Там буде повідомлятися про поновлення теоретичного розділу мовленнєвих технологій.
|