+1
На рассмотрении

Стоп-слова и регулярные выражения

seo-r@me0 biz 9 лет назад обновлен Rush Analytics (Добрый саппортовец) 9 лет назад 4
Как я понимаю, у вас и так используется регулярка для отсева стоп слов.
Надо дать возможность (возможно с установкой "галочки") добавлять в список стоп слов регулярное выражение, чтобы не получилось так как в примере из инструкции с минус словом ТВ, которое вырезает "тверь", "утварь" и т.д. и т.п.

К примеру, если бы я могу указать вот такую регулярку "(\s|^)тв(\s|$)", у меня бы не было такой проблемы. Исключились бы только запросы с ТВ.
Правил придумать можно великое множество. Понятно, что правило из примера простейшее, но вот такое правило "дорог(а|и)" уберет запросы с "дорога", "дороги", но не исключит запросы с "недорого", "дорого". Конечно, он исключит запросы с "дорогая", но погрешность уже будет меньше.
На рассмотрении
Здравствуйте!
Благодарим за Вашу идею!
Мы планируем вскоре много переделать в функционале по стоп словам. Будут доступны в интерфейсе списки стоп слов, возможность подгружать свои списки, а так же алгоритм.
Мы внесли Вашу идею на рассмотрение и обязательно, будем ее учитывать.
Привет! Спасибо за идею. Дим, закинь в Icebox
+1
Не за что :)
Я сначала хотел лемматизацию или стеминг, но до меня дошло, что с вашими объемами выполняемых заданий нагрузка на сервер будет слишком большая.
А с регулярками, при умении ими пользоваться, погрешность, теоритически, можно свести до нуля.

Сервис поддержки клиентов работает на платформе UserEcho