1. Если вы первый раз у нас на форуме, то начать лучше с этой темы
  2. С 1 марта 2017 на форуме запущен платный закрытый раздел. Вся информация по сабжу ЗДЕСЬ

Нейросети и СЕО

Тема в разделе "SEO", создана пользователем Wade, 27 дек 2017.

  1. Wade

    Wade Постоянец

    Пол:
    Мужской
    Уже много холиваров было тут и на других форумах по поводу нейросетей и ИИ применительно к seo и текстам. Был даже товарищ, который хотел генерить тексты под тематику. Но заглохло там)

    Предлагаю обсудить практическую сторону применения сеток к сайтам.

    Из того, что делал я

    1) Генератор комментариев обученный на комментариях vk - результат получился так себе, но я использовал посимвольную генерацию,слышал, что при словесной генерации комменты получаются более-менее
    2) Сейчас доделываю вырезатель полезного текста из страницы - убирать рекламу, разные мусорные слова, оглавления и тд. В альфа версии работает неплохо в связке с классическими методами.

    Хотелось бы услышать, кто что делает/делал или хотел бы сделать с помощью нейронок.
     
  2. Astraport

    Astraport Постоянец

    Пол:
    Мужской
    Интересная тема, подпишусь.
    А зачем генерировать комменты? Их проще иметь базу в несколько тысяч пар вопрос-ответ, как раньше в ботах делали.
    У меня даже был огромный текстовик для RU, но куда-то посеял.

    https://poolslideinnersleeve.xyz/
    https://swimmingpoolslide.xyz/
    Вот, как утверждает автор, на нейронке генерирует. Скрипт стоит недорого, но кривой до ужаса и автор неадекват редкий.
    Я купил, но так и не смог разобраться за пару часов - забил.
     
  3. Прощелыга

    Прощелыга Активный участник

    Пол:
    Мужской
    Пурга и тупик, бред полный.
     
    • Смешно Смешно x 1
  4. Openixxx

    Openixxx Легенда

    старенькая новость в тему:
    https://nplus1.ru/news/2016/08/05/neurokad
    "Нейросеть научилась писать твиты за Рамзана Кадырова"
    значит теоретически можно научить чему то..))
     
  5. Wade

    Wade Постоянец

    Пол:
    Мужской
    Тут не согласен. Уже сейчас можно нейронками, например,классефицировать и извлекать текстовые данные из страниц. Никакими шаблонами такое не сделать.

    Твиты писать то мы умеем) Вот очередь комментариев
     
  6. Прощелыга

    Прощелыга Активный участник

    Пол:
    Мужской
    Под эту мелочевку Вы хотите поднимать нейросети и ии? Распечатайте help Яндекса и Гугла и перечитывайте одни раз утром и вечером.
     
    • Смешно Смешно x 1
  7. iamincognito

    iamincognito Контент-генератор

    Пол:
    Мужской
    Всю прошлую неделю игрался с рекуррентной нейросетью - для генерации бредотекста, разумеется (вдохновлено курсом по дорам от efs; тут могла бы быть и твоя реклама %username% :D).

    На выходе - пшик :) Пока использовался огромный (сотни миллионов слов) размеченный корпус ин инглиш результат был, скажем так, не безнадежным. От внятного связного текста далеко, но получше чем марков, а некоторые предложения получались не хуже, чем у индусов на хиндише.

    Но как только попробовал русский - полный провал. Потому что больших почищенных корпусов в паблике просто нет, а на малых нейронка сливает вчистую даже старому доброму маркову. Причем английская морфология намного проще русской, форма слова почти не меняется. Соответственно если английский корпус на 400 миллионов слов работает приемлемо, то русский при той же архитектуре должен быть еще больше - в несколько раз, а то и на порядок - чтобы получить хотя-бы сопоставимые по качеству результаты. В общем, в вариант (при ограниченных ресурсах) генерить человекоподобные комменты формата твиттера ин инглиш я верю, это возможно. На русском - проблема где взять достаточно большой корпус для обучения. Читабельные тексты большого объема не получится и на английском...
     
    Последнее редактирование: 28 дек 2017
  8. iamincognito

    iamincognito Контент-генератор

    Пол:
    Мужской
    Не все так однозначно. Посмотри бложек Andrej Karpathy - у него там впечатляющие примеры есть именно с посимвольной генерацией.

    Но я для себя сделал вывод, что для генерации бредотекста проще юзать маркова высоких порядков (3+, хочу попробовать также комбинировать вероятности слов с вероятностями синтаксических конструкий), а для белого контента нужно копать совсем другие методы...
     
  9. Wade

    Wade Постоянец

    Пол:
    Мужской
    Для корпуса нужно парсить комменты вконтакте, например.
    Генерация посимвольная была или пословная?

    ЗЫ в дорах рассказывали про генерацию нейронками или просто генеренка бредотекста?
     
  10. iamincognito

    iamincognito Контент-генератор

    Пол:
    Мужской
    Пословная. Парсить можно, но нужно еще и чистить - скажем, заменять все числа и имена собственные какими-то условными токенами (чтобы не раздувалась база слов так, что получится длинный хвост лексем встречающихся только один раз)...

    Не-не, это в порядке инициативы, решил попробовать (давно собирался)
     
  11. Wade

    Wade Постоянец

    Пол:
    Мужской
    Это лучше, чем ничего. А считал на AWS или у самого есть 1080TI ?)
     
  12. iamincognito

    iamincognito Контент-генератор

    Пол:
    Мужской
    Не, все гораздо прозаичнее - грел процессор. Юзал rnn с относительно простой структурой и сишный код, так что оно там постоянно в одном потоке что-то колбасило, не мешая работать :) Фактически да, поле для экспериментов большое - можно было взять примеры того же Karpathy (он кажется даже исходники выкладывал своих посимвольных RNN) и поиграться в облаке с разной конфигурацией сети. Но для себя дальнейшего смысла (в контексте генерации текста) не вижу пока... Как я уже сказал, читабельный бредотекст можно получить и более простыми методами, а полностью белый связный текст не получается генерить даже у профи...
     
    Последнее редактирование: 28 дек 2017
  13. Wade

    Wade Постоянец

    Пол:
    Мужской
    Длинные русские тексты да, согласен, пока никто не генерил.

    Я все таки реально считаю, что русские комменты так же можно генерить. А в купе с тем, что можно сделать так, чтобы в комментариях использовались определенные ключевые слова...)
     
  14. Wade

    Wade Постоянец

    Пол:
    Мужской
    Не понял ваш коммент - что читать в хелпе яндекса?

    Попробуйте вытащить неструктурированные данные из нескольких миллионов веб страниц - без рекламы, мусорных слов, оглавлений и тд. Вы удивитесь, насколько это "просто"
     
  15. iamincognito

    iamincognito Контент-генератор

    Пол:
    Мужской
    Наверное, не спорю. Тем более, можно чуть посильнее заморочиться с архитектурой, и на выходе того что генерит сетка подцепить дополнительный фильтр - например, натренировать простые 3-граммы не на словах, а на морфологических формах исходного корпуса, и отстреливать все генеренные отзывы, которые будут состоять из маловероятных сочетаний частей речи... С исследовательской точки зрения очень интересно, с практической - не очень :) (UPD. поясню, что это мне не интересно - я не вижу денег в самой задаче генерации комментов - в отличие от задачи генерации длинных текстов; но если кто-то знает как комменты превратить в деньги - то очень даже интересно может быть)

    С практической точки зрения я щас очень интересуюсь двумя ортогональными направлениями в генерации: text summarization (хз как корректно на русский перевести) и генерацией текстового представления структурированных ("табличных") данных.
     
    Последнее редактирование: 28 дек 2017
  16. Wade

    Wade Постоянец

    Пол:
    Мужской
    Оба направления очень интересны с денежной стороны. Взять бы все статейники и сделать короткую выжимку под запрос. И запилить в виде сервиса...
     
  17. giuser

    giuser Участник

    Пол:
    Мужской
    Реферирование
     
  18. efs

    efs Повелитель дескрипторов

    на рынке актуальна и востребованна услуга написания комментариев (зачастую на собственном ресурсе, а не каких-то агрегаторах)
    или взять например все тот же _ttps://versus.com и создав дополнительную ценность в виде комментариев (не забыв что их задача не только рассказать о качестве и преимуществе продукта, но и создать кучу ннннннч хвостов)
     
  19. Wade

    Wade Постоянец

    Пол:
    Мужской
    ну что же ты палишь тему?))) шутка)
    Замечено, что комменты поднимают траст страницы.
     
  20. iamincognito

    iamincognito Контент-генератор

    Пол:
    Мужской
    Я предпочел бы для начала решить задачу генерации самих больших текстов на собственном ресурсе, а потом уже отзывов :) Но да, как услуга выглядит вполне, не подумал ¯\_(ツ)_/¯

    P.S. Посмотрел бегло цены на паре бирж - микро-комменты твиттер-формата стоят меньше 10 центов за штуку (большие - ненамного дороже). Интересно, есть ли тут в принципе такой объем, чтобы овчинка выделки стоила...
     
    Последнее редактирование: 29 дек 2017