Форум Flasher.ru

Форум Flasher.ru (http://www.flasher.ru/forum/index.php)
-   Perl (http://www.flasher.ru/forum/forumdisplay.php?f=21)
-   -   Кто в чём пишет (http://www.flasher.ru/forum/showthread.php?t=27941)

Crazy 06.03.2002 22:43

Цитата:

Оригинал написал(а) mmb
Я об этом думал. Но мне кажется, что таблицы слов получаться большие?
Словарный запас современных авторов не особо велик. Так что все не так страшно. Из поисковой базы прошлогоднего проекта, заполнявшейся около двух лет:

Всего слов (во всех формах): 246,940
Суммарная длина: 2,251,335 символов

Т.е. это, в принципе, даже в RAM можно было бы держать при правильной организации.

Цитата:

Да и как определять релевантность?
Никак. :(

Цитата:

И ещё одно отступление от темы нити. У кого ты обычно хостишься?
А я у себя хостюсь. Увы. :)

Crazy 06.03.2002 22:44

Цитата:

Оригинал написал(а) mmb
А что часто люди переходят с MySQL на MSSQL или наоборот?
Я как раз сейчас переношу один проект с MS SQL на MySQL -- возникла потребность хостить его на чужой площадке, а там кроме MySQL ничего не предлагают. :)
Не так уж редко встречается перенос между MySQL и Postgre, но лично мне не приходилось.

mmb 06.03.2002 22:50

Ты не ответил чем плох FULLTEXT в MySQL он ведь делает тоже самое+релевантность+скорость+ещё что-нибудь в 4-ой версии.
А где можно посмотреть на твой поиск?

Crazy 06.03.2002 22:57

1. Эта фича MySQL относительно свежая и не везде стоит достаточно новая версия сервера.

2. Фича не до конца отлажена.

3. Нет уверенности, что она всегда корректно работает с русским языком. Был такой слух, но я не проверял.

4. Задолбаешься привинчивать к этому морфологический поиск если того протребует задача.

mmb 06.03.2002 23:05

А как ты привинчиваешь морфологический поиск к своим поисковым движкам?

Crazy 06.03.2002 23:20

Простейший вариант таков:

1. Помимо списка слов заводим список производных слов (два поля: id базового слова и текст слова). В список слов, упомянутый ранее, заносим только базовые формы.

2. При поиске и индексировании мы сначала проверяем, не является ли это слово производным и только потом -- при отрицательном результате -- ищем в базовом списке.

Все новые слова на автомате регистрируются как базовые. Время от времени вручную или с использованием словарей производим вычистку списка базовых слов.

mmb 07.03.2002 16:35

Вроде списки синонимов (кошка = кошке = у кошки и т.д.) будут и в Mysql 4

Crazy 07.03.2002 17:49

...и это приятно.

Хрюндик 07.03.2002 19:44

Лично я пользуюсь Mastak Absolute Perl (раньше mPS)
рулит!

Crazy 08.03.2002 15:08

А в чем конкретно он рулит?


Часовой пояс GMT +4, время: 02:50.

Copyright © 1999-2008 Flasher.ru. All rights reserved.
Работает на vBulletin®. Copyright ©2000 - 2026, Jelsoft Enterprises Ltd. Перевод: zCarot
Администрация сайта не несёт ответственности за любую предоставленную посетителями информацию. Подробнее см. Правила.