На рассмотрении

Стоп-слова и регулярные выражения

9 лет назад • обновлен 9 лет назад • 4

Как я понимаю, у вас и так используется регулярка для отсева стоп слов.
Надо дать возможность (возможно с установкой "галочки") добавлять в список стоп слов регулярное выражение, чтобы не получилось так как в примере из инструкции с минус словом ТВ, которое вырезает "тверь", "утварь" и т.д. и т.п.

К примеру, если бы я могу указать вот такую регулярку "(\s|^)тв(\s|$)", у меня бы не было такой проблемы. Исключились бы только запросы с ТВ.
Правил придумать можно великое множество. Понятно, что правило из примера простейшее, но вот такое правило "дорог(а|и)" уберет запросы с "дорога", "дороги", но не исключит запросы с "недорого", "дорого". Конечно, он исключит запросы с "дорогая", но погрешность уже будет меньше.

Голос

Ответы 4
Старые сверху
- Новые сверху
- Старые сверху

На рассмотрении

9 лет назад

Здравствуйте!
Благодарим за Вашу идею!
Мы планируем вскоре много переделать в функционале по стоп словам. Будут доступны в интерфейсе списки стоп слов, возможность подгружать свои списки, а так же алгоритм.
Мы внесли Вашу идею на рассмотрение и обязательно, будем ее учитывать.

Ответить
|

9 лет назад

Привет! Спасибо за идею. Дим, закинь в Icebox

Ответить
|

9 лет назад

Не за что :)
Я сначала хотел лемматизацию или стеминг, но до меня дошло, что с вашими объемами выполняемых заданий нагрузка на сервер будет слишком большая.
А с регулярками, при умении ими пользоваться, погрешность, теоритически, можно свести до нуля.

Ответить
|

9 лет назад

Мы уже поставили задачу)

Ответить
|

Сервис поддержки клиентов работает на платформе UserEcho