|
|
|||||
Регистрация: Jul 2011
Сообщений: 34
|
Разбиение текста на предложения.
Добрый день.
Есть определенная строка (проще говоря, текст). Этот текст нужно разбить на предложения. Думается только в сторону regExp и split(). Массив получается. Всё удобно. Но как составить регулярное выражение, которое будет бить на предложения без ошибок натыкаясь на инициалы, например. Спасибо. |
|
|||||
Нуб нубам
модератор форума
Регистрация: Jan 2006
Адрес: Бердск, НСО
Сообщений: 6,445
|
Думаю такой точности не достичь. Пример - предложение "Ок." Как его отличить от "др. Хауз"?
__________________
Reality.getBounds(this); |
|
|||||
Определить минимальную длину предложения. После тестирования можно добавить исключения таких вариантов, который предположил Wolsh.
__________________
Мой профиль на фрилансе |
|
|||||
Нуб нубам
модератор форума
Регистрация: Jan 2006
Адрес: Бердск, НСО
Сообщений: 6,445
|
В обычной речи предложением может быть "Я."
А уж в общении по мессенджерам и вовсе - ")"
__________________
Reality.getBounds(this); |
|
|||||
Регистрация: Jul 2011
Сообщений: 34
|
В итоге я сделал так.
Может кому понадобится. Остается только сделать так чтобы исключались такие слова как "Mr.", "Mrs." и т.д. Ну то что как раз предложил Wolsh. Последний раз редактировалось Sergespb; 05.08.2011 в 12:56. |
|
|||||
Регистрация: Jul 2011
Сообщений: 34
|
Ну можно в процессе работы добавлять эти слова в словарь исключений. =)
|
|
|||||
Любое, кроме "Я." (кто будет такое предложение писать?).
Не, вот так лучше (пробелы значащие, в выражении). Последний раз редактировалось fish_r; 05.08.2011 в 15:05. |
|
|||||
Нуб нубам
модератор форума
Регистрация: Jan 2006
Адрес: Бердск, НСО
Сообщений: 6,445
|
Кто будет)) Зависит от стилистики текста конечно. Нормальные междометия в русской речи - "А.", "О!" и даже акцентирование "И!"
Как вам такие конструкции - "1. Блаблабла" "а. Блаблабла" Или такие - "Вася т. 8913202.." Я не говорю что невозможно, я говорю что словарь будет огромным и увы, неоднозначным.
__________________
Reality.getBounds(this); |
|
|||||
Да. Wolsh. Правда. Поймать всё не реально. Даже создав базу исключений.
Ещё например, иногда, пишут не так "В. Жутков", а так "Вл. Жутков", и всё - последующий текст теряется (в том выражении которое я привёл). Последний раз редактировалось fish_r; 05.08.2011 в 15:51. |
Часовой пояс GMT +4, время: 15:55. |
|
« Предыдущая тема | Следующая тема » |
Теги |
actionscript 3.0 , regexp , split , string , text |
|
|