0
На рассмотрении

все точности в одном файле и докластеризация

raketa358 user01@gmail com 8 лет назад обновлен Oleg Shestakov (Технический директор/CTO) 8 лет назад 6


Суть докластеризации повторять не буду, всё слово-в-слово уже описывали здесь:

http://rushanalytics.userecho.com/topics/104-klasterizatsiya-s-mnozhestvennyim-shagom/




Про все точности в одном файле вопрос уже тоже задавали, но так и не смогли объяснить как это можно представить, а Вы так и не подумали на эту тему.


Попробую объяснить, как действительно удобно было бы видеть готовый результат кластеризации, причем с возрастанием/убыванием точности кластеризации:


==================================================

ПРИМЕР ВАШЕГО КОНКУРЕНТА (J***-Mag**.org)



группы grp2-4 нумеруются по аналогии с grp1. Т.е. самая большая grp2 получает номер 1. Поменьше — номер 2. Аналогично grp3 и grp4.


spec-grp — так называемая «тематическая группировка». Это очень широкое объединение групп из столбца grp1. Создана для ускорения фильтрации/разбора больших ядер. Также хорошо разделяет омонимию (виза в грецию/виза или мастеркард/виза начальника).


==================================================



Сейчас у меня возникла такая ситуация,

решил сделать кластеризацию,

выбрал точность 8, остальные забыл отметить,

результат не устроил,

как же теперь мне "уменьшить" точность?

да, даже если ставить все точности сразу,

то сопоставление человеку делать очень долго и сложно.


например, для одного СЯ:

для одной группы запросов нужна высокая точность, т.е. разбить как можно сильнее по группам,

а для другой группы видно, что можно менее сильно разбивать.


Вот это всё легко делать на одной странице, как в приведённом примере.



PS: извините, пожалуйста, за пример конкурента, но мне более лучше придумать чем у них не представляется, такое представление группировки - для семантика просто находка.








На рассмотрении

Ренат, спасибо за Вашу идею. Мы обязательно ее рассмотрим.

Все это планировалось внедрятся в систему.

По Вашему примеру, скажу честно - огромное количество наших пользователей не разберется, если данные будут в таком виде. Но будем думать как результаты сделать доступными как профессионалам так и новичкам.

Да, я и сам понимаю, что режим отображения в приведённом примере не всем легко понятен,

можно назвать этот режим "эксперт".



Варианты решения:


1.

попробовать отобразить по другому,

но это нужно прогерам и юзерам генерить идеи,

временной интервал на выполнение этой задачи будет не прогнозируемым,

т.е. идея может придти и завтра и послезавтра, а может через год или три года...


2.

Можно подобный вариант реализовать как дополнительный,

например, на отдельной вкладке "режим эксперт" в результирующем файле.


3.

Можно попробовать ещё и раскрасить эксель, выделить жирным главные ключи и т.п.






PS: просто я сторонник того, что не нужно придумывать велосипед заново,

форм-фактор и принцип велосипеда уже давно придуман, его можно только доработать/модифицировать,

как например, относительно недавно придумали к велосипеду амортизацию заднего колеса,

это очень увеличило комфорт, взяли с авто дисковые тормоза.

Ведь за дисковые тормоза автопроизводители не ругают же велоделов, что мол сдули у них)), да и принцип дисковых тормозов тоже другой придумать невозможно, можно опять таки, только доработать/модифицировать, или придумать систему торможения с нуля, а это опять таки генерить идеи, и не факт что смогут придумать что-то приемлемое на практике.

Ребята из JM молодцы, придумали принцип отображения ключей сгруппированных с разной точностью,

теперь это как один из листов в библиотеке знаний по СЯ.



Вот пример реального результата JM, и как можно отформатировать даже такие сложные для обычного юзера данные, чтобы с ними можно было работать




ОРИГИНАЛ (отрывок)







ОТФОРМАТИРОВАНО





Применил в экселе:

"Условное форматирование" -- "Цветовые шкалы"

и ещё, уже руками,

выделил главные ключи и отчертил над ними верхнюю границу.


Думаю, что всё это скриптами можно разукрашивать на автомате,

больших сложностей для прогера-эксельщика это не вызовет.




==================================================

основные плюсы сегодняшнего отображения результата группировки


1. выявление главного ключа кластера

2. визуальная разбивка кластеров цветом

3. Подсветки для кластерa

4. Лидеры тематики



==================================================

не плюсы, но хорошее дополнение


1. Top URL

2. Название кластера




==================================================

не плюс, не минус, и нет хорошего применения

(а может я не умею работать с СЯ)), но всё же считаю эту информацию излишней, она создаёт перегруженность данными в таблице, затрудняет разбор, приходится каждый раз удалять)


1. Размер кластера

2. Совпадений ТОПа

3. Суммарная частотность кластера

4. Подсветки (думаю было бы достаточно "Подсветки для кластерa")





==================================================




Почему считаю мусорными/безполезными/неточными данными?:

1. Размер кластера

2. Суммарная частотность кластера





Приведу примеры результата:


==================================================



Безграмотно писать не запретишь)), я и сам ошибки делаю)))

Т.о. бесполезно набегает счётчик "размер кластера"





==================================================



"Суммарной частота кластера" превишена, в реальности много меньше.






==================================================






Спасибо за фидбек! Скоро отпишусь!

Сервис поддержки клиентов работает на платформе UserEcho