Ваши комментарии

мой аккаунт под емейлом
raketa358.user01@gmail.com
Спасибо за плюшки!))

да идей ещё много)),
но мне так же интересно помогать прогрессивным людям,
как и  вам самим развивать сервис.

нам самим уже надоело копаться в семантике,
отнимает много времени, а можно было бы идти дальше.

честно сказать, я ещё полноценно не тестировал сервис,
через пару-тройку дней начнём сбор с вашим сервисом,
сейчас ещё только готовимся переключиться с наших внутренних алгоритмов сбора на ваши.






Да и ВСЕ города России по регионам тоже думаю легко спарсить откуда нить, вот только бы найти откуда))
может википедия поможет?
или KLADR от 1С...
вобщем с городами, я думаю, можно легко разобраться методом парсинга справочников.
Считаю, обязательно разбивать стоп-слова городов, по регионам, как минимум, отдельно МО.
У нас например, тема буерние, стройка коттеджей, котельные, так там наоброт, только города МО и нужны!
Или напрмиер, сайт по Воронежу и области крутится, так тут нужно точно вычесть всю россию, кроме ВО.

Ещё нужно разделить "Места в Москве"(согласен что их выделили отдельно, их много)  и отдельно станции метро(это легко, они все известны)
Ещё идея по сбору стоп-слов по тематикам:
Дайте возможность юзеру самому размечать связку"тематика - стоп-слово"
Далее вы только проверяете и расширяете эти списки.



думаю вам, имея БД, сервис-сайт, было бы лучше, даже для самих себя, такой вариант:

1.--------------
в БД вбиваются все стоп-слова какие будите находить по мере сбора по тематикам ивообще.
отправка идёт с пометкой(тегом) тематики,

например, "секс", все города", города и населённые пункты "МО" или ЦАО
или я для совей темы по засорам)), выбрал бы "принтеры", но это уж очень узкая тематика, и думаю так нет необходимотсти замарачиваться, хотя бы сегодня, достаточно было бы категорий общего характера.

Т.о. у нас БД набитая ключами с пометоками "стоп-слово"+тег1+тег2+...



2.----------------
В функционале сервиса, просто каждый выбирает по тем тегам, что он хочет вычесть.

Из БД загружаются по этим тегам нужные стоп-слова, формируется единый список.
Далее все эти стопы не учавствуют при сборе.



+ было бы отлично, если вдруг чего то забыли добавить в стопы, то можно было бы почистить стопами после всех сборов,

например, ещё тыкаем теги стоп-слов, и у нас из собранных показываются какие будут удалены.
Это было бы круто!
т.к. не всегда знаешь, что может уйти если по регулярке грохнуть весь список))
Супер! У себя в компании мы только подошли к этому вопросу, и именно, так и думали, что нужно составить разные списки стоп-слов.



вот выдержка из нашего внутреннего файла:



Мульти-тематичные

подходят для любой темы



1. Группа 100% минус-слова
мусор, который никогда не возьмём
например:
-секс -девушка ...


2. Группа Города
все города
возможно когда-нибудь возьмём


3. Группа ??
?? слова, котрые может быть возьмём, когда-нибудь
например:
?? -форум -блог ...                            =информационные запросы, возьмём если организуем эти желание пользователя
?? -руками -самим -инструкция ...     =информационные запросы, возьмём, если будем продвигать отдельно информационники





Узко-тематичные

применимы только для данной темы
?? при взятии новой темы, можно проглядеть списки узкотематичных минус-слов, составленные для других близких тем


4. Группа
собираются методом просмотра уточняющих запросов по топ-словам темы
вбиваем каждый топзапрос в WS и собираем стоп-слова
например, тема "прочистка засоров канализации":
смотрим в WS - http://wordstat.yandex.ru/#!/?words=прочистка
-принтер -картридж -головка -epson -средство -форсунка



raketa358.user01@gmail.com

я только пару дней назад подумал, вот было бы здорово сервис по съёму позиций от Шестаковых!
приятно удивлён, жду))


Сервис поддержки клиентов работает на платформе UserEcho