Датамайнинговые стратегии

Датамайнинговые стратегии – это вид seo-стратегий, реализация которых ведётся с использованием технологий Data Mining: сбора, анализа данных и получения нового знания роботами автоматически. На данном этапе развития информационных технологий такие роботы способны, основываясь на всем доступном им массиве данных, создавать оригинальный контент, а также предсказывать запросы и интересы пользователей.

Продвижение сайта с использованием датамайнинга – инновационная и малоисследованная область. Это скорее завтрашний день SEO, чем сегодняшний. Но уже сейчас он представляет интерес для участников рынка: в этом направлении развивают свои стратегии как ведущие поисковые системы, так и наиболее дальновидные игроки в SEO.

Датамайнинг: история термина

Сам термин Data Mining дословно переводится с английского как «добыча» (mining) «данных» (data). Он был впервые озвучен еще в 1989 году. Однако устройчивого, утвердившегося перевода этого словосочетания на русский язык до сих пор нет, как нет и единого определения этого понятия. В широком смысле под датамайнингом подразумевается интеллектуальный, глубинный анализ данных с целью обнаружения ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Подобное масштабное исследование по заданным человеком параметрам и алгоритмам осуществляет искусственный интеллект, «машина»: только она способна за короткий срок обработать огромный массив данных в поисках скрытых закономерностей.

Существует ряд требований, в соответствии в которыми поиск информации можно считать датамайнингом. Добытые знания должны быть:

новыми, а не подтверждающими какие-то ранее полученные сведения;
нетривиальными, такими, которые нельзя просто так увидеть при непосредственном визуальном анализе данных или при вычислении простых статистических характеристик;
практически полезными, то есть представляющими ценность для исследователя или потребителя;
доступными для интерпретации, чтобы их можно было представить в наглядной для пользователя форме и легко объяснить в терминах предметной области.

Датамайнинговые стратегии в интернете

На сегодняшний день применение датамайнинга выглядит порою способом развлечения, этакой забавной игрушкой, однако на самом деле это – мощный и эффективный инструмент привлечения пользователей. Скажем, в последнее время в сети появился целый ряд сайтов-агрегаторов интересной для пользователей информации из сети. Страницы этих сайтов – одни из несомненных лидеров по количеству репостов и лайков в соцсетях. Яркий пример такого сайта: adme.ru. Раньше ту нишу, что занял он, выполняли энтузиасты, одиночки-серферы по просторам интернета. Но объем информации растет лавинообразно, и справиться с ним могут теперь только машины. Способны они уже и скомпоновать добытую информацию в статью. Скажем, вот этот материал вполне мог быть сделан роботом.

Образцы работы роботов-агрегаторов можно встретить в сети все чаще, даже на «обычных» страницах пользователей.

Задавая машине более сложный алгоритм, нежели поиск по ключевому слову, можно получить более интересный и привлекающий пользователя продукт. Крупнейшие поисковики, располагающие ресурсами для создания таких алгоритмов, охотно вкладывают деньги в чисто развлекательные с виду прокты. Скажем, Автокреатив Google. Поисковая машина с помощью соответствующего алгоритма создает из фотографий пользователя интересные картинки, коллажи и анимацию. Некоторые эффекты, например снег или GIF-анимация, применяются автоматически, а некоторые можно добавлять и вручную на устройстве Android.

Датамайнинг как способ оптимизации организационной структуры предприятия

Датамайнинг вытесняет «ручной труд», поиск и классификафию информации человеком, уже не только в отдельных статьях, но и на целых сайтах. Робот способен сам заполнять страницы контентом, когда речь идет не о написании полностью оригинальных текстов, а об агрегировании данных из уже имеющихся – в относительно тривиальных и/или хорошо проработанных областях.

Явно обозначил начало этой тенденции Яндекс, уволив весь персонал редакции Auto.ru. С 1996 года на этом портале размещается база данных о продаже автомобилей и других транспортных средств, объявления о продаже запчастей и аксессуаров, отзывы владельцев. Редакция сайта публиковала новости, тест-драйвы, обзоры авторынка. В Яндексе посчитали, что с этим вполне справится автоматический агрегатор сообщений из разных источников, работающий по модели «Яндекс.Новостей»: сторонний контент собирается с помощью автоматических алгоритмов. Владельцы портала решили, что этого достаточно для выполнения основной задачи: максимально быстро и выгодно продать или купить автомобиль.

Таким образом, технологии датамайнинга, оставляя текстовую составляющую достаточно привлекательной для пользователя, значительно экономят средства, затрачиваемые на наполнение сайта релевантным контентом, что позволяет направить их на другие цели, в том числе и на продвижение.

Датамайнинг: шаг в будущее

Систематизированные данные, добытые агрегаторами из массива размещенной в интернете информации, могут становиться источником дополнительного конкурентного преимущества, если объектом исследования становятся интересы и потребности пользователя.

Такой сбор данных, основанный на поведении человека, на истории его запросов, на личной информации, принято называть WebMining, «добыча данных в Web». В сущности это охота за предпочтениями пользователя. Алгоритмы WebMining могут ответить на многие вопросы: например, кто из посетителей является потенциальным клиентом интернет-магазина, какая группа клиентов приносит ему наибольший доход, какая группа товаров востребована у определенной категории пользователей.

Фактически работа датамайнинговых агрегаторов – это сплав статистики и искусственного интеллекта. Он способен к сбору, классификации информации, к ее анализу. Он умеет добывать информацию из документов различных типов, таких как текст, изображение, аудио, видео, метаданные и гиперссылки.

Возможности датамайнинга и сфера его применения будут, безусловно, расти. Это необходимо иметь в виду с точки зрения перспективы развития сайта и его продвижения. Уже сейчас стоит задуматься о применении датамайнинга:

для оптимизации контента;
для исследования целевой аудитории и ее запросов;
для наиболее эффективного взаимодействия с поисковыми системами, которые, в свою очередь, уже активно используют технологии датамайнинга, в частности, при индексации.

Для специалистов, работающих в такой стремительно развивающейся области, как интернет-индустрия, необходимо особенно внимательно следить за инновациями – они быстро становятся обычной практикой и, следовательно, перестают быть конкурентными преимуществами. Датамайнинг – технология, которая сейчас на подъеме, и важно не упустить этот момент.

Датамайнинговые сервисы

Интересным примером датамайнинговых сервисов являются автоматические аккаунты в Твиттере. Например, «Медуза» рассказывает о некоторых из них, которые майнят информацию из Википедии – один аккаунт публикует ссылки на энциклопедические статьи, посещаемость которых резко возрасла в последнее время. Другой показывает правки, сделанные с IP-адресов, принадлежащих госорганам.

Виртуальная валюта (+3 699 100%) https://t.co/JKmQyPjbPp
— Викитренды (@RuWikiTrends) 11 мая 2017 г.

Лос-Гласьярес (+1 011 500%) https://t.co/fJjPk6tseQ
— Викитренды (@RuWikiTrends) 11 мая 2017 г.

Роберт Майлз (+182 947%) https://t.co/TsyQr9gnfT
— Викитренды (@RuWikiTrends) 11 мая 2017 г.

Великая Отечественная война (+208%) https://t.co/Qrz4wpwFvV
— Викитренды (@RuWikiTrends) 9 мая 2017 г.

Одна красная скрепка (+21 933%) https://t.co/HB0l7aJukA
— Викитренды (@RuWikiTrends) 4 мая 2017 г.

Итак, это было про автоматическое улавливание Викитрендов, а теперь поглядим, где можно осуществлять общественный контроль за действиями государственных органов в Википедии.

Статья в Википедии Союз кинематографистов России отредактирована из Минкульта https://t.co/2hrITN8g6L
— Госправки (@RuGovEdits) 11 мая 2017 г.

Статья в Википедии Обсуждение:Электрический стул отредактирована из ЦТСПИ при МИД https://t.co/00hpJnR08X
— Госправки (@RuGovEdits) 27 марта 2017 г.

Примеры контента, который в будущем будет создаваться датамайнингом

Основа для сценария в описываемом примере, который мог быть «рожден» датамайнингом (или, говоря другими словами, датамайнингозирован) сводится к следующему. В сложной системе эволюции с её многочисленными взаимными связями выделяется какая-то одна линия повествования, желательно построенная на какой-то оппозиции. В анализируемом примере сотни миллионов лет эволюции рассматриваются сквозь призму противостояния деревьев и трав.

BBC: Как создавалась планета Земля? Трава против деревьев

Такой подход позволяет строить захватывающие истории, включая в них малоизвестные и неожиданные факты. Датамайнинг мог бы автоматически – при достаточно развитой базе знаний – формировать перечень ключевых моментов таких историй, выбирая из огромного массива знаний те немногие, которые касаются лишь той «смысловой оси», вокруг которой выстраивается история. В этом BBC-м видео получились следующие вехи истории:

Были мягкие травы -> На одном из этапов эпической битвы с деревьями травы их одолели: устраивали пожары, а сами после них очень быстро восстанавливались -> Затем травы продолжили «захват власти»: появились жесткие травы (типа осоки), содержащие кремний -> Вымирание одних млекопитающих, которым такая трава все резала -> Появление лошадей, которые по-другому пережевывают -> Их навоз, содержащий кремний, смывается в океан -> Появляются новые бактерий с кремниевым скелетом -> Ими активно питаются селедка и много кто еще и они вырабатывают 1/4 кислорода -> Видите, какие важненькие бактерии для нашей жизни? Да и лошади появились. А все началось с эпического противостояния трав и деревьев -> PROFIT. Это изменило нашу жизнь. Конец мини-истории-триллера.

Это, конечно, немного утрированное описание, но суть оно отражает, и эти сюжетные моменты очень красиво обыграны в фильме ВВС. И таких захватывающих сценариев, построенных по всем законам сторителлинга, можно придумать великое множество на материале эволюции планеты. И придумывать такие истории скоро будут именно роботы. И не только придумывать, но и следить за полнотой и недублированностью перечня таких историй. Наполнять, вычищать такой перечень историй и ранжировать их по различным критериям – будет обязанностью именно роботов. Делом человека будет (пока еще будет) лишь облечь пункты этих историй в слова, чуть-чуть поиграться эмоциональными акцентами – где-то усилить, где-то ослабить, где-то снизить неполиткорретный накал. Мелочи в общем.

Робот помогает журналисту писать научную фантастику

«Медуза» написала о том, что «канадский журналист и писатель Стивен Марч написал научно-фантастический рассказ с помощью программы-редактора, которая руководила всем процессом с помощью базы из 50 любимых произведений автора. Искусственный интеллект тренировался на рассказах Урсулы Ле Гуин, Филипа Дика, Рэя Бредбери и других фантастов: в результате программа-редактор стала диктовать Марчу не только стилистику и структуру текста, но и сюжетные повороты. Журнал The Wired опубликовал результат работы Марча с комментариями автора и рецензиями литературных критиков, которым не было известно о том, как создавался рассказ».

Получилось не очень хорошо, но и не очень плохо. Вот позитивный отзыв:

Дебора Трейсман сочла, что в рассказе есть интересные детали, но он выглядит незаконченным: сюжетные линии не доведены до конца, недостаточно развиты персонажи. «Но, в конце концов, возможно это лишь начало более объемной истории или романа», — говорит она. Редактор, с которым постоянно работает Марч, охарактеризовал произведение так: «Тот факт, что оно не так уж и плохо, поистине удивителен».

А вот, скорее, негативный:

По словам Энди Уорда, рассказал получился неудачным: он наполнен бессмысленными деталями и «деревянными» диалогами. «Эта штука как будто написана не человеком — или, точнее сказать, не писателем», — сказал он.