+1
На рассмотрении
Стоп-слова и регулярные выражения
Как я понимаю, у вас и так используется регулярка для отсева стоп слов.
Надо дать возможность (возможно с установкой "галочки") добавлять в список стоп слов регулярное выражение, чтобы не получилось так как в примере из инструкции с минус словом ТВ, которое вырезает "тверь", "утварь" и т.д. и т.п.
К примеру, если бы я могу указать вот такую регулярку "(\s|^)тв(\s|$)", у меня бы не было такой проблемы. Исключились бы только запросы с ТВ.
Правил придумать можно великое множество. Понятно, что правило из примера простейшее, но вот такое правило "дорог(а|и)" уберет запросы с "дорога", "дороги", но не исключит запросы с "недорого", "дорого". Конечно, он исключит запросы с "дорогая", но погрешность уже будет меньше.
Надо дать возможность (возможно с установкой "галочки") добавлять в список стоп слов регулярное выражение, чтобы не получилось так как в примере из инструкции с минус словом ТВ, которое вырезает "тверь", "утварь" и т.д. и т.п.
К примеру, если бы я могу указать вот такую регулярку "(\s|^)тв(\s|$)", у меня бы не было такой проблемы. Исключились бы только запросы с ТВ.
Правил придумать можно великое множество. Понятно, что правило из примера простейшее, но вот такое правило "дорог(а|и)" уберет запросы с "дорога", "дороги", но не исключит запросы с "недорого", "дорого". Конечно, он исключит запросы с "дорогая", но погрешность уже будет меньше.
Сервис поддержки клиентов работает на платформе UserEcho
Благодарим за Вашу идею!
Мы планируем вскоре много переделать в функционале по стоп словам. Будут доступны в интерфейсе списки стоп слов, возможность подгружать свои списки, а так же алгоритм.
Мы внесли Вашу идею на рассмотрение и обязательно, будем ее учитывать.
Я сначала хотел лемматизацию или стеминг, но до меня дошло, что с вашими объемами выполняемых заданий нагрузка на сервер будет слишком большая.
А с регулярками, при умении ими пользоваться, погрешность, теоритически, можно свести до нуля.