|
|
|||||
Регистрация: May 2009
Сообщений: 86
|
Flash, распознавание звука
Задумался над одной интересной идеей..
Но вот по поводу реализации вообще глухо мыслями) Flash ведь может както брать аудио файл и распознавать слова, перегонять их в текст. Но как это вообще возможно сделать? По факту нужно чтобы была форма, в которую можно загрузить аудио файл, а на выходе у нас текст этого аудио файла. У меня была мысль что можно брать воспроизводить во флеше звук, далее смотреть частоты и на каждую частоту заранее выписать букву.. а он бы потом из этого всего собирал слова......
__________________
1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233, 377, 610, 987, 1597 … |
|
|||||
Регистрация: May 2009
Сообщений: 86
|
Делают же)
Добавлено через 15 минут есть готовые базы, даже у W3С, но правда немного не понял.. то ли у них только воспроизведение текста.. то ли я чтото не дочитал..
__________________
1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233, 377, 610, 987, 1597 … |
|
|||||
Modus ponens
|
Хорошего распознавания голоса пока что современная наука не добилась. Хорошим считается сравнимое с человеческим. Т.е. если из всей услышанной информации человек в среднем понимает 95%, то компьютер, в лучшем случае 80% - ну или где-то в этих пределах. Т.е. как бы и не очень плохо, но и не так чтобы прям суперски.
Технологии эти не простые... но, возможно на каком-то минимальном уровне можно было бы попытаться. Но имейте в виду следующее: - вам для распознавания слов нужно будет провести немаленькое исследование языка, чтобы понять как его фонетика устроена, чтобы хотя бы знать, что искать. - нужно будет познакомится с алгоритмами поиска для того, чтобы оперативно сопоставлять услышаный образец с "шаблонами". Это тоже нетривиальная задача, т.как простых и оптимальных решений нет - даже суперкомпьютеры пока что не могут с такой же скоростью как человек, и, именно, скорее всего изза того, что наука пока что не нашла самые лучшие вероятностные алгоритмы. Это вполне может подойти, если вы хотите писать научную работу (но я бы засомневался в целесообразности использования Флеша для таких целей). Но как проект - боюсь, что вы скоро столкнетесь с какими-нибудь неразрешимими трудностями, за долго до того, как будет вообще хоть что-то рабочее.
__________________
Hell is the possibility of sanity |
|
|||||
Регистрация: May 2009
Сообщений: 86
|
Подумывал для диплома.
По идее, можно же как то частоты звука переводить в какой-нибудь код и сверять этот код. Понятно что из-за шума, из-за разности голоса, код будет меняться, но можно же его сверять с неким шаблоном и при совпадении на 60%, говорим что код совпадает и присваиваем этому звуку соответствующее слово (или скорее даже букву..).
__________________
1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233, 377, 610, 987, 1597 … |
|
|||||
Modus ponens
|
Ну так вы же не будете записывать все миллионы слов которые человек может произнести - следовательно, вы будете пытаться как-то сделать систему распознания звуков более универсальной. Но тут начинаются первые сложности. Звуки, которые мы произносим не всегда соответствуют написанию. Длина звуков меняется по ситуации. Например, в Русском безударная и читается как е, например в словах начинающихся с приставки "при", которую даже вполне грамотные люди часто путают с "пре". Но иногда это корневая гласная, и тогда это может быть что угодно, и никакими правилами грамматики не описывается, например, в слове "телефон", его можно проинтерпретировать фонетически как "тилифон", "тилефон" или "телифон". Но это только один из множества случаев. Еще есть оглушение звонких согласных в конце слова, как например в фамилиях заканчивающихся на "ов" - "Петров" произносится как "Петроф", но бывают случаи, когда в конце действительно глухая согласная, например "потоп" (а не "потоб"). Или вырождение чередующихся шипящих, как, например, в слове "калачный" (которое правильно произносится "калашный").
Кроме того, люди говорят с ошибками, и фонетическими в том числе. Иногда делают больше паузы между словами, а иногда почти не делают. Т.е. диктора с телевидения или актера из драм. театра понять компьютеру будет легче, но когда у человека, кроме всего прочего могут быть врожденные дефекты дикции, или Русский не родной... Я не говорю, что это вообще не возможно, но если вам диплом сдавать в близжайшие 3-4 года - я бы скорее всего выбрал другую тему. Это только исследования на пару лет...
__________________
Hell is the possibility of sanity |
|
|||||
Регистрация: Dec 2010
Адрес: Ярославль
Сообщений: 1,255
|
tilweb, такие вещи крупные корпорации, такие как гугл и эпл, разрабатывают по много лет. Да, у них неплохо получается, но пока что не идеал.
Очень сомневаюсь, что это под силу одному человеку или даже небольшой команде. Тут нужна армия учёных и инженеров. |
|
|||||
Регистрация: May 2009
Сообщений: 86
|
Диплом у меня через год ещё только
Просто действительно интересная тема. У меня специальность радиоэлектронные системы, но я както больше люблю интернет технологии и т.д.. поэтому и ищу чтонибудь такое, пересекающееся с интернетом и специальностью. По поводу произношения.. это да.. по идее, когда мы получили слова, программа должна эти слова прогонять по базе, пытаясь убрать ошибки (если есть) в словах.
__________________
1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233, 377, 610, 987, 1597 … |
Часовой пояс GMT +4, время: 05:26. |
|
« Предыдущая тема | Следующая тема » |
Опции темы | |
Опции просмотра | |
|
|