Тестування системи диктування

Випробовуйте програму диктування українською мовою. Розпізнається злите мовлення, система налаштована на сто тисяч слів. 

Які враження і побажання?

Слідкуйте за цією темою, і ви будете в курсі виходу нових версій та вдосконалень у системі розпізнавання.


Comments

  • Що так багато забирає місця? Які перспективи, якщо слів буде мільйон?
  • Після інсталяції програми розпізнавання більше 1 ГБ забирає лінгвістична складова системи. Це інформація стосовно того, в якому контексті зустрічаються слова. За рахунок методики поєднання слів у один кластер планується зменшити обсяги даних у десятки разів. Тому навіть при збільшенні словника до мільйона слів, що на 99% покриває лексикон мови, дані програми можуть займати менше місця ніж тепер. 
  • зрадістю потестував би, але у мене OS X ( Чи плануєте писати його на java? і чи можливо вихід TTS/STT Engine на платформу Android?
  • На OS X у мене встановлено Wine для OS X, і STT запускається та розпізнає - сьогодні перевірив. Модулі розпізнавання/синтезу написані на C/C++ і годяться практично для будь-якої платформи. Адаптації потребує лише GUI і частково введення-виведення звуку. Для Android’а або iOS можливі варіанти розпізнавання (та й синтезу): на самому пристрої  - тоді словник розпізнавача навряд перевищить 100-200 тисяч слів, і віддалено - словник може перевищувати мільйон слів, але буде затримка при передачі сигналу на сервер. Вирішити такі інженерні питання - справа техніки, над цим іде робота, хоч хотілося би скоріше ніж є зараз.
  • у мене OSX Mountain Lion - Wine встановив, але запустити .exe не виходить :( Чекаю виходу версії на OSX
  • Завантажив програму - Поставив на XP - Увімкнув - Start - (довго думає) - failed start process.
  • Якщо оперативної пам’яті достатньо, то проблема скоріш за все із звукозаписом. Чи пишеться нормально звук з мікрофона іншою програмою, наприклад Audacity? У будь-якому разі, за 1-2 тижні плануємо випустити версію з детальнішою діагностикою.
  • Зі звукозаписом у мене все гаразд. В Audacity записується звук. Вчора навіть на сайті http://speechpad.ru/ все виходило (а толку, якщо української немає). Оперативки 2ГБ. Може із-за того, що звукова зовнішня, то вона і не роздупляється?!! 
  • Схоже на те. Будемо над цим працювати.
  • edited November 2012

    Оновлено програму диктування українською мовою

    Зменшено дистрибутив з 755 до 587 мегабайт. 

    Додано полегшену версію, що потребує менше обчислювальних ресурсів. Полегшена версія розпізнавання мовлення потребує 1 ГБ оперативної пам’яті та 700 МБ на диску. Обидві версії можуть бути встановлені на одному комп’ютері.

    Додано нове меню Microphones, з якого можна обирати джерело звукозапису. Якщо обрано інший мікрофон/драйвер під час диктування, то зміна відбудеться після перезапуску розпізнавання (Finish, Start). Під час випробовувань з’ясовано, що, зокрема драйвер WASAPI, може не працювати. Деякі системи дають змогу спрямувати звукозапис на пристрій відтворення звуку. Тоді програма буде намагатися перевести в текст звук, який відтворює який-небудь програвач. При цьому встановлена у пристрої гучність має значення.

    Тепер у місці введення тексту рухомі символи відображають стан розпізнавача:

    • увімкнено,
    • призупинено (пауза), щоб далі диктувати, слід натискати Resume або 
    • розпізнавання вимкнене і для подальшого диктування потрібен Start.
  • Який відсоток правильного розпізнавання?
  • Якщо ОЗУ 780 МБт - програма буде працювати?

    Чи працює під Windows 8 ?

    Ви знайомились з Microsoft Visual Studio технологіями розпізнавання мови? Наскільки вони дієві?

  • Скільки користувачів і де використовують Вашу програму?
  • edited November 2012

    "Який відсоток правильного розпізнавання?"

    Надійність розпізнавання найкраща для загальновживаної лексики та суспільно-політичної тематики (можна диктувати новини), включно з політикою, економікою, культурою, спортом, погодою... Для цієї лексики відсоток правильного послівного розпізнавання може перевищувати 95%. Оскільки саме на словах цієї тематичної галузі настроювалися параметри системи, то й розпізнається вона найкраще. Для інших специфічних предметних областей (наприклад, літературні твори, медицина, будівництво) навіть покриття словником не завжди перевищує 90%, а отже надійність буде меншою. Зараз словник нарощується до одного мільйона, він увійде в офіційний реліз.


    "Якщо ОЗУ 780 МБт - програма буде працювати?"

    Такі обсяги пам'яті не випробовувалися. Можливо за рахунок віртуальної пам'яті є шанс, що система запрацює. Загалом, однією з причин затримки виходу програми розпізнавання мовлення був брак обчислювального ресурсу на типових комп'ютерах. Пропонована програма розрахована на комп'ютер, сучасний не лише теперішньому дню, а і  2-3-річній давнині. Для старішої техніки ми плануємо випустити реліз, але словник навряд чи суттєво перевищить 100 тисяч слів.

    "Чи працює під Windows 8 ?"

    Пропонована програма не використовує інтерфейсів, специфічних для певної версії Windows, тому немає перепон для нормальної роботи у версії 8.

    "Ви знайомились з Microsoft Visual Studio технологіями розпізнавання мови? Наскільки вони дієві?"

    Microsoft не є лідером у розпізнаванні мовлення взагалі, а для української мови наша програма розпізнавання є єдиною, яка працює на ПК в реальному часі.


    "Скільки користувачів і де використовують Вашу програму?"

    На сьогодні система використовується лише в режимі тестування.

  • Дякую за відповіді. 

  • "Microsoft не є лідером у розпізнаванні мовлення взагалі..."

    А яка Ваша думка по  http://habrahabr.ru/post/127332/

  • Є більш свіже: http://blogs.technet.com/b/next/archive/2012/11/08/microsoft-research-shows-a-promising-new-breakthrough-in-speech-translation-technology.aspx

    Там знайдете: We have been able to reduce the word error rate for speech by over 30% compared to previous methods. This means that rather than having one word in 4 or 5 incorrect, now the error rate is one word in 7 or 8. Тобто, з їх слів, надійність складає десь 87% для англійської і, можливо, китайської мов. І це ще не вийшло за межі лабораторій, ми не можемо таку систему бодай потестувати. Також зверніть увагу, що затримка з відповіддю розпізнавання у них - 1 секунда.

    Ми аналізували роботи різних колективів, і, наприклад, одна чеська лабораторія розпізнає передачі телебачення для своєї мови в реальному часі з надійністю понад 90%. Тому краще нас, українців, для української мови систему розпізнавання не розробить ніхто :)

  • Добрий день.

    А скажіть будь ласка, чому Ви не використовуєте фонемний підхід і яка структура словника (що він такий великий)? (Вважаю Вашу роботу важливою і шукаю шляхи щоб долучитись до неї або, при можливості, допомогти. Якщо Ви вважаєте цю інформацію закритою для сторонніх - дайте відповідь на ел.пошту.

  • Добрий вечір! Фонеми ми використовуємо разом зі словами на акустичному рівні. Для розпізнавання довільного мовлення потрібно значно більше 100 тисяч слів (словоформ).  Бажання долучитися до роботи вітаються :) Подробиці - електронною поштою. 
  • Доброго дня!
    чи є у Вас публікації?
  • Вітаю!

    Публікації є. Плануємо найближчими днями викласти на сайті.

  • Відкрито нову тему Теоретичні питання. Там є посилання на новий теоретичний розділ у технологіях, де можна ознайомитися з публікаціями.

    Запитання від Bossly відбрунькувалися у теми Веб-сервіс для розпізнавання та Плани розробок TTS
  • В мене на компі
    Windows XP Professional RU,
    2 Гб DDR2-800,
    аудіо - внутрішнє: Realtek ALC888/1200 @ nVIDIA MCP73

    В папці CyberMova\stt-demo
    знаходяться файли:

    100k.blm             1 309 215 КБ
    cmstt-demo.exe            404 КБ
    f100cont.voca             3 515 КБ
    portaudio_x86.dll           209 КБ
    uk.bam                      1 691 КБ
    UninstallSTTDemo.exe    49 КБ

     
    При запуску - повідомлення:

    Приложение не было запущено, поскольку оно некорректно настроено. Повторная установка приложения может решить данную проблему.


    Таке ж повідомлення - з CyberMova\stt-demo-light:


    В чому справа?


  • Повідомлення генерує операційна система. Скоріше за все, бракує компоненти, від котрої залежить програма. Будь ласка, перевірте залежність утилітою, такою як www.dependencywalker.com, повідомте, якої компоненти не виявлено.

  • Добавте функцію рзпізнавання лише чисел і в числовому фоматі та можна запис їх у таблицю;
    Також можна щоб програма розпізнавали числа з якогось певного інтервалу тоді буде легше їх розпізнавати, навчання програми голосу користувача напочаток можна зробити це тільки для чисел, 
    Крута програма(:

  • edited August 2013

    Коротеньке відео демонстрації системи диктування, взяте з телепередачі
    A short speech-to-text demo

    Відео не працює? / Video not working?
    Натисніть сюди, щоб подивитися розпізнавання мовлення на YouTube
    Click here to watch Ukrainian speech recognition on YouTube

  • edited August 2013
    Система розпізнавання мовлення випробовується перед аудиторією на семінарі. Одразу дві версії введення тексту голосом діють на ноутбуці в реальному часі
    Two real-time speech recognition systems are being tested on the notebook before a large audience. 

    Розпізнаний текст найбільш чітко видно в якості HD 1080p.

    Відео не працює? / Video not working?
    Натисніть сюди, щоб побачити як програма розпізнає мову на YouTube
    Click here to watch the speech recognition software on YouTube
Sign In or Register to comment.