Форум Flasher.ru
Ближайшие курсы в Школе RealTime
Список интенсивных курсов: [см.]  
  
Специальные предложения: [см.]  
  
 
Блоги Правила Справка Пользователи Календарь Поиск рулит! Сообщения за день Все разделы прочитаны
 

Вернуться   Форум Flasher.ru > Flash > ActionScript 3.0

Версия для печати  Отправить по электронной почте    « Предыдущая тема | Следующая тема »  
Опции темы Опции просмотра
 
Создать новую тему Ответ
Старый 03.08.2011, 13:39
Sergespb вне форума Посмотреть профиль Отправить личное сообщение для Sergespb Найти все сообщения от Sergespb
  № 1  
Ответить с цитированием
Sergespb
 
Аватар для Sergespb

Регистрация: Jul 2011
Сообщений: 34
Question Разбиение текста на предложения.

Добрый день.

Есть определенная строка (проще говоря, текст).

Этот текст нужно разбить на предложения. Думается только в сторону regExp и split(). Массив получается. Всё удобно.

Но как составить регулярное выражение, которое будет бить на предложения без ошибок натыкаясь на инициалы, например.

Спасибо.

Старый 03.08.2011, 13:45
Wolsh вне форума Посмотреть профиль Отправить личное сообщение для Wolsh Найти все сообщения от Wolsh
  № 2  
Ответить с цитированием
Wolsh
Нуб нубам
 
Аватар для Wolsh

модератор форума
Регистрация: Jan 2006
Адрес: Бердск, НСО
Сообщений: 6,445
Думаю такой точности не достичь. Пример - предложение "Ок." Как его отличить от "др. Хауз"?
__________________
Reality.getBounds(this);

Старый 03.08.2011, 14:50
SvetozarPNZ вне форума Посмотреть профиль Отправить личное сообщение для SvetozarPNZ Найти все сообщения от SvetozarPNZ
  № 3  
Ответить с цитированием
SvetozarPNZ
 
Аватар для SvetozarPNZ

Регистрация: Dec 2009
Сообщений: 125
Записей в блоге: 1
Определить минимальную длину предложения. После тестирования можно добавить исключения таких вариантов, который предположил Wolsh.

Старый 03.08.2011, 15:03
Wolsh вне форума Посмотреть профиль Отправить личное сообщение для Wolsh Найти все сообщения от Wolsh
  № 4  
Ответить с цитированием
Wolsh
Нуб нубам
 
Аватар для Wolsh

модератор форума
Регистрация: Jan 2006
Адрес: Бердск, НСО
Сообщений: 6,445
В обычной речи предложением может быть "Я."
А уж в общении по мессенджерам и вовсе - ")"
__________________
Reality.getBounds(this);

Старый 05.08.2011, 12:50
Sergespb вне форума Посмотреть профиль Отправить личное сообщение для Sergespb Найти все сообщения от Sergespb
  № 5  
Ответить с цитированием
Sergespb
 
Аватар для Sergespb

Регистрация: Jul 2011
Сообщений: 34
В итоге я сделал так.
Может кому понадобится.

Код AS3:
//бъем на предложения по данным символам.
var reSent:RegExp = /(\?+ |\!+ |\!\?+ |\?\!+ *|\.+ |\r+)/
//загоняем в массив
arrOfSent = proText.split(reSent);
Остается только сделать так чтобы исключались такие слова как "Mr.", "Mrs." и т.д. Ну то что как раз предложил Wolsh.


Последний раз редактировалось Sergespb; 05.08.2011 в 12:56.
Старый 05.08.2011, 14:10
derhab вне форума Посмотреть профиль Отправить личное сообщение для derhab Найти все сообщения от derhab
  № 6  
Ответить с цитированием
derhab
 
Аватар для derhab

Регистрация: Apr 2001
Адрес: Berlin
Сообщений: 1,862
Отправить сообщение для derhab с помощью ICQ Отправить сообщение для derhab с помощью Skype™
ну сокращено внутри предложения может быть любое слово, вы не сможете предусмотреть все варианты
__________________
freelance | Раздор

Старый 05.08.2011, 14:16
Sergespb вне форума Посмотреть профиль Отправить личное сообщение для Sergespb Найти все сообщения от Sergespb
  № 7  
Ответить с цитированием
Sergespb
 
Аватар для Sergespb

Регистрация: Jul 2011
Сообщений: 34
Ну можно в процессе работы добавлять эти слова в словарь исключений. =)

Старый 05.08.2011, 14:46
fish_r вне форума Посмотреть профиль Отправить личное сообщение для fish_r Посетить домашнюю страницу fish_r Найти все сообщения от fish_r
  № 8  
Ответить с цитированием
fish_r
 
Аватар для fish_r

блогер
Регистрация: Jan 2011
Сообщений: 1,162
Записей в блоге: 4
Код:
/\W.{2,}[\. |\!{,3} |\?{,3} |\!\? |\?\! ]/gm
Любое, кроме "Я." (кто будет такое предложение писать?).

Код:
 /[A-Z, А-Я].{2,}[\. |\!{,3} |\?{,3} |\?\! |\!\? ]/gm
Не, вот так лучше (пробелы значащие, в выражении).


Последний раз редактировалось fish_r; 05.08.2011 в 15:05.
Старый 05.08.2011, 15:25
Wolsh вне форума Посмотреть профиль Отправить личное сообщение для Wolsh Найти все сообщения от Wolsh
  № 9  
Ответить с цитированием
Wolsh
Нуб нубам
 
Аватар для Wolsh

модератор форума
Регистрация: Jan 2006
Адрес: Бердск, НСО
Сообщений: 6,445
Кто будет)) Зависит от стилистики текста конечно. Нормальные междометия в русской речи - "А.", "О!" и даже акцентирование "И!"
Как вам такие конструкции -
"1. Блаблабла"
"а. Блаблабла"
Или такие - "Вася т. 8913202.."
Я не говорю что невозможно, я говорю что словарь будет огромным и увы, неоднозначным.
__________________
Reality.getBounds(this);

Старый 05.08.2011, 15:45
fish_r вне форума Посмотреть профиль Отправить личное сообщение для fish_r Посетить домашнюю страницу fish_r Найти все сообщения от fish_r
  № 10  
Ответить с цитированием
fish_r
 
Аватар для fish_r

блогер
Регистрация: Jan 2011
Сообщений: 1,162
Записей в блоге: 4
Да. Wolsh. Правда. Поймать всё не реально. Даже создав базу исключений.
Ещё например, иногда, пишут не так "В. Жутков", а так "Вл. Жутков", и всё - последующий текст теряется (в том выражении которое я привёл).


Последний раз редактировалось fish_r; 05.08.2011 в 15:51.
Создать новую тему Ответ Часовой пояс GMT +4, время: 19:48.
Быстрый переход
  « Предыдущая тема | Следующая тема »  

Теги
actionscript 3.0 , regexp , split , string , text
Опции темы
Опции просмотра

Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.


 


Часовой пояс GMT +4, время: 19:48.


Copyright © 1999-2008 Flasher.ru. All rights reserved.
Работает на vBulletin®. Copyright ©2000 - 2024, Jelsoft Enterprises Ltd. Перевод: zCarot
Администрация сайта не несёт ответственности за любую предоставленную посетителями информацию. Подробнее см. Правила.