Добрый вечер! Спасибо Вам огромное за отзыв! Мы очень старались! Однако, может быть Вы подскажете что неудобно, или работает не так как хотелось бы? Может быть есть фуникционал, который Вы очень хотите но его нету. Подскажите нам и мы постараемся его реализовать :)
10 минут назад добавили функционал :) - если Ваш URL есть в топе - автоматом привязываем к маркеру. http://c2n.me/3dxwn8b.png Завтра вечером добавим гибридрную логику - если Вашего URL нет в топе то найдем URL по site:
А как вы представляете себе автоматический сбор тегов? Мы видим это так: 1. Берем Ваш сайтмеп - по его URL собираем H1 или Тайтлы - выделяем биграммы/триграммы и привязываем их к URL - минусы - будет попадать мусор, как его лингвистически откинуть - не ясно. Такой функицонал уже у нас есть - но не внутри интерфейса RA :) 2. Сейчас делаем машинное обучение на бинарных деревьях парсера метрики - будет довольно точно выдавать связку URL-ключ, но как понимаете - данные там не полные и что делать с новыми сайтами, без трафика? Если есть идеи - будем рады услышать.
По поводу ТЗ на текст - будет не раньше мая но будет - сейчас нет модуля, который с достаточной точностью выделяет именно контент страницы без HTML обзявки - требуется машинное обучение. В ближайшие 6 итераций не планируем обучать алгоритм. Но он точно будет.
через карту сайта не получится - не сможете отсечь. Сквозные элементы в помощь - меню, теги тоже все выводятся.
мета данные не стоит трогать - возможно криво заполнены. Н1 брать и вытягивать весь шлейф по морфологической словоизменительной парадигме (желательно не привязываться к 1 лексеме). Отсекаем пустышки, собираем подсказки, тсекаем по стоп словам, класстеризируем, распределяем по весам слов - это и для текстом и для мета данных. Достаточно использовать естественное распределение слов.
Метрику не стоит брать - это в большей степени для закупки ссылок подойдет.
По поводу текста, что мешает взять кусок кода с максимальным <p>?
А можете подробнее раскрыть суть алгоритма: "вытягивать весь шлейф по морфологической словоизменительной парадигме (желательно не привязываться к 1 лексеме)."?
Спасибо Вам огромное за отзыв! Мы очень старались!
Однако, может быть Вы подскажете что неудобно, или работает не так как хотелось бы?
Может быть есть фуникционал, который Вы очень хотите но его нету. Подскажите нам и мы постараемся его реализовать :)
Завтра вечером добавим гибридрную логику - если Вашего URL нет в топе то найдем URL по site:
Тогда вам цены не будет
Мы видим это так:
1. Берем Ваш сайтмеп - по его URL собираем H1 или Тайтлы - выделяем биграммы/триграммы и привязываем их к URL - минусы - будет попадать мусор, как его лингвистически откинуть - не ясно. Такой функицонал уже у нас есть - но не внутри интерфейса RA :)
2. Сейчас делаем машинное обучение на бинарных деревьях парсера метрики - будет довольно точно выдавать связку URL-ключ, но как понимаете - данные там не полные и что делать с новыми сайтами, без трафика?
Если есть идеи - будем рады услышать.
По поводу ТЗ на текст - будет не раньше мая но будет - сейчас нет модуля, который с достаточной точностью выделяет именно контент страницы без HTML обзявки - требуется машинное обучение. В ближайшие 6 итераций не планируем обучать алгоритм. Но он точно будет.
мета данные не стоит трогать - возможно криво заполнены. Н1 брать и вытягивать весь шлейф по морфологической словоизменительной парадигме (желательно не привязываться к 1 лексеме). Отсекаем пустышки, собираем подсказки, тсекаем по стоп словам, класстеризируем, распределяем по весам слов - это и для текстом и для мета данных. Достаточно использовать естественное распределение слов.
Метрику не стоит брать - это в большей степени для закупки ссылок подойдет.
По поводу текста, что мешает взять кусок кода с максимальным <p>?
А можете подробнее раскрыть суть алгоритма: "вытягивать весь шлейф по морфологической словоизменительной парадигме (желательно не привязываться к 1 лексеме)."?