Форум Flasher.ru
Ближайшие курсы в Школе RealTime
Список интенсивных курсов: [см.]  
  
Специальные предложения: [см.]  
  
 
Блоги Правила Справка Пользователи Календарь Поиск рулит! Сообщения за день Все разделы прочитаны
 

Вернуться   Форум Flasher.ru > Flash > ActionScript 3.0

Версия для печати  Отправить по электронной почте    « Предыдущая тема | Следующая тема »  
Опции темы Опции просмотра
 
Создать новую тему Ответ
Старый 18.05.2012, 16:07
tilweb вне форума Посмотреть профиль Отправить личное сообщение для tilweb Найти все сообщения от tilweb
  № 1  
Ответить с цитированием
tilweb

Регистрация: May 2009
Сообщений: 86
По умолчанию Flash, распознавание звука

Задумался над одной интересной идеей..
Но вот по поводу реализации вообще глухо мыслями)

Flash ведь может както брать аудио файл и распознавать слова, перегонять их в текст.
Но как это вообще возможно сделать?

По факту нужно чтобы была форма, в которую можно загрузить аудио файл, а на выходе у нас текст этого аудио файла.

У меня была мысль что можно брать воспроизводить во флеше звук, далее смотреть частоты и на каждую частоту заранее выписать букву.. а он бы потом из этого всего собирал слова......
__________________
1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233, 377, 610, 987, 1597 …

Старый 18.05.2012, 17:01
Hauts вне форума Посмотреть профиль Отправить личное сообщение для Hauts Посетить домашнюю страницу Hauts Найти все сообщения от Hauts
  № 2  
Ответить с цитированием
Hauts
 
Аватар для Hauts

блогер
Регистрация: Feb 2008
Адрес: Россия, Новосибирск, Академгородок
Сообщений: 2,112
Записей в блоге: 1
Отправить сообщение для Hauts с помощью ICQ Отправить сообщение для Hauts с помощью Skype™
Практически нереально.
__________________
hauts.ru

Старый 18.05.2012, 17:04
Партизан вне форума Посмотреть профиль Отправить личное сообщение для Партизан Найти все сообщения от Партизан
  № 3  
Ответить с цитированием
Партизан
 
Аватар для Партизан

блогер
Регистрация: Nov 2007
Адрес: Almaty, Moscow
Сообщений: 396
Записей в блоге: 5
Отправить сообщение для Партизан с помощью Skype™
Ого... какие технологии.

Старый 18.05.2012, 17:07
tilweb вне форума Посмотреть профиль Отправить личное сообщение для tilweb Найти все сообщения от tilweb
  № 4  
Ответить с цитированием
tilweb

Регистрация: May 2009
Сообщений: 86
Делают же)

Добавлено через 15 минут
есть готовые базы, даже у W3С, но правда немного не понял.. то ли у них только воспроизведение текста..
то ли я чтото не дочитал..
__________________
1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233, 377, 610, 987, 1597 …

Старый 18.05.2012, 23:40
wvxvw вне форума Посмотреть профиль Отправить личное сообщение для wvxvw Найти все сообщения от wvxvw
  № 5  
Ответить с цитированием
wvxvw
Modus ponens
 
Аватар для wvxvw

модератор форума
Регистрация: Jul 2006
Адрес: #1=(list #1#)
Сообщений: 8,049
Записей в блоге: 38
Хорошего распознавания голоса пока что современная наука не добилась. Хорошим считается сравнимое с человеческим. Т.е. если из всей услышанной информации человек в среднем понимает 95%, то компьютер, в лучшем случае 80% - ну или где-то в этих пределах. Т.е. как бы и не очень плохо, но и не так чтобы прям суперски.
Технологии эти не простые... но, возможно на каком-то минимальном уровне можно было бы попытаться. Но имейте в виду следующее:
- вам для распознавания слов нужно будет провести немаленькое исследование языка, чтобы понять как его фонетика устроена, чтобы хотя бы знать, что искать.
- нужно будет познакомится с алгоритмами поиска для того, чтобы оперативно сопоставлять услышаный образец с "шаблонами". Это тоже нетривиальная задача, т.как простых и оптимальных решений нет - даже суперкомпьютеры пока что не могут с такой же скоростью как человек, и, именно, скорее всего изза того, что наука пока что не нашла самые лучшие вероятностные алгоритмы.

Это вполне может подойти, если вы хотите писать научную работу (но я бы засомневался в целесообразности использования Флеша для таких целей). Но как проект - боюсь, что вы скоро столкнетесь с какими-нибудь неразрешимими трудностями, за долго до того, как будет вообще хоть что-то рабочее.
__________________
Hell is the possibility of sanity

Старый 28.05.2012, 13:48
tilweb вне форума Посмотреть профиль Отправить личное сообщение для tilweb Найти все сообщения от tilweb
  № 6  
Ответить с цитированием
tilweb

Регистрация: May 2009
Сообщений: 86
Подумывал для диплома.

По идее, можно же как то частоты звука переводить в какой-нибудь код и сверять этот код. Понятно что из-за шума, из-за разности голоса, код будет меняться, но можно же его сверять с неким шаблоном и при совпадении на 60%, говорим что код совпадает и присваиваем этому звуку соответствующее слово (или скорее даже букву..).
__________________
1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233, 377, 610, 987, 1597 …

Старый 28.05.2012, 14:22
wvxvw вне форума Посмотреть профиль Отправить личное сообщение для wvxvw Найти все сообщения от wvxvw
  № 7  
Ответить с цитированием
wvxvw
Modus ponens
 
Аватар для wvxvw

модератор форума
Регистрация: Jul 2006
Адрес: #1=(list #1#)
Сообщений: 8,049
Записей в блоге: 38
Ну так вы же не будете записывать все миллионы слов которые человек может произнести - следовательно, вы будете пытаться как-то сделать систему распознания звуков более универсальной. Но тут начинаются первые сложности. Звуки, которые мы произносим не всегда соответствуют написанию. Длина звуков меняется по ситуации. Например, в Русском безударная и читается как е, например в словах начинающихся с приставки "при", которую даже вполне грамотные люди часто путают с "пре". Но иногда это корневая гласная, и тогда это может быть что угодно, и никакими правилами грамматики не описывается, например, в слове "телефон", его можно проинтерпретировать фонетически как "тилифон", "тилефон" или "телифон". Но это только один из множества случаев. Еще есть оглушение звонких согласных в конце слова, как например в фамилиях заканчивающихся на "ов" - "Петров" произносится как "Петроф", но бывают случаи, когда в конце действительно глухая согласная, например "потоп" (а не "потоб"). Или вырождение чередующихся шипящих, как, например, в слове "калачный" (которое правильно произносится "калашный").
Кроме того, люди говорят с ошибками, и фонетическими в том числе. Иногда делают больше паузы между словами, а иногда почти не делают. Т.е. диктора с телевидения или актера из драм. театра понять компьютеру будет легче, но когда у человека, кроме всего прочего могут быть врожденные дефекты дикции, или Русский не родной...

Я не говорю, что это вообще не возможно, но если вам диплом сдавать в близжайшие 3-4 года - я бы скорее всего выбрал другую тему. Это только исследования на пару лет...
__________________
Hell is the possibility of sanity

Старый 28.05.2012, 14:32
illuzor вне форума Посмотреть профиль Отправить личное сообщение для illuzor Найти все сообщения от illuzor
  № 8  
Ответить с цитированием
illuzor
 
Аватар для illuzor

Регистрация: Dec 2010
Адрес: Ярославль
Сообщений: 1,255
tilweb, такие вещи крупные корпорации, такие как гугл и эпл, разрабатывают по много лет. Да, у них неплохо получается, но пока что не идеал.
Очень сомневаюсь, что это под силу одному человеку или даже небольшой команде.
Тут нужна армия учёных и инженеров.

Старый 28.05.2012, 14:37
Aquahawk вне форума Посмотреть профиль Отправить личное сообщение для Aquahawk Посетить домашнюю страницу Aquahawk Найти все сообщения от Aquahawk
  № 9  
Ответить с цитированием
Aquahawk
 
Аватар для Aquahawk

Регистрация: Nov 2010
Адрес: Москва
Сообщений: 915
Записей в блоге: 4
Отправить сообщение для Aquahawk с помощью ICQ Отправить сообщение для Aquahawk с помощью Skype™
illuzor
Более того и apple и google отсылают данные на свои сервера, поэтому эти технологии не работаю без доступа к интернету.
__________________
:)

Старый 28.05.2012, 14:52
tilweb вне форума Посмотреть профиль Отправить личное сообщение для tilweb Найти все сообщения от tilweb
  № 10  
Ответить с цитированием
tilweb

Регистрация: May 2009
Сообщений: 86
Диплом у меня через год ещё только
Просто действительно интересная тема. У меня специальность радиоэлектронные системы, но я както больше люблю интернет технологии и т.д.. поэтому и ищу чтонибудь такое, пересекающееся с интернетом и специальностью.

По поводу произношения.. это да.. по идее, когда мы получили слова, программа должна эти слова прогонять по базе, пытаясь убрать ошибки (если есть) в словах.
__________________
1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233, 377, 610, 987, 1597 …

Создать новую тему Ответ Часовой пояс GMT +4, время: 05:26.
Быстрый переход
  « Предыдущая тема | Следующая тема »  
Опции темы
Опции просмотра

Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.


 


Часовой пояс GMT +4, время: 05:26.


Copyright © 1999-2008 Flasher.ru. All rights reserved.
Работает на vBulletin®. Copyright ©2000 - 2024, Jelsoft Enterprises Ltd. Перевод: zCarot
Администрация сайта не несёт ответственности за любую предоставленную посетителями информацию. Подробнее см. Правила.