Евгений Колесников

Евгений Колесников

PR-специалист РИА Новости и Sputnik

Социальные боты и способы их обнаружения

Социальные боты и способы их обнаружения
21 декабря 2020
Подпишитесь на нас в Telegram

Боты все чаще вмешиваются в политические выборы и экономические дискуссии. Итальянский ученый Стефано Креши (Stefano Cresci) проанализировал 236 научных работ, посвященных ботам. Найденные закономерности он изложил в статье. Евгений Колесников перевел материал и предлагает всем читателям Лайкни подробнее узнать о социальных ботах и способах их обнаружения. 

Утром 9 ноября 2016 года мир осознал шокирующий результат президентских выборов в США: Дональд Трамп стал 45-м президентом Соединенных Штатов Америки. Неожиданное событие, которое по-прежнему имеет последствия во всем мире. 

Сегодня мы знаем, что социальные боты – автоматизированные учетные записи в социальных сетях, имитирующие людей –сыграли центральную роль в распространении разногласий и дезинформации, возможно, способствуя победе Трампа [16][19]. 

Ключевые моменты 

  • Социальные боты давно изучаются, но до сих пор являются в онлайновой экосистеме нерешенной проблемой. Спустя время в их обнаружении появилось несколько тенденций. Последнее и наиболее многообещающее продвижение в этой сфере связано с детекторами группового типа (group-based detectors). 
  • Обнаружение обмана по своей сути состязательно. Применение состязательного машинного обучения может дать нам преимущество в борьбе со всеми формами онлайн-манипуляции и автоматизации. 
  • Последние достижения в области ИИ и вычислений (например, дипфейки) делают отдельных ботов неотличимыми от пользователей. Будущие усилия следует сосредоточить на измерении степени недостоверной координации, а не на попытках классифицировать природу индивидуальных аккаунтов. 

После выборов в США в 2016 году мир начал осознавать серьезность обмана в социальных сетях. После эксплойта Трампа мы стали свидетелями появления резкого диссонанса между множеством усилий, которые прикладываются для обнаружения и удаления ботов, и возрастающим влиянием этих злонамеренных акторов на общество [27][29]. Этот парадокс поднимает вопрос: какие стратегии мы должны применять, чтобы остановить пандемию социальных ботов? 

В преддверии выборов в США 2020 года этот вопрос кажется более важным, чем когда-либо. В частности, в свете сообщений о фальсификации предвыборных дебатов тысячами аккаунтов на базе искусственного интеллекта [a]. 

То, что поразило социальных, политических и экономических аналитиков после 2016 года – обман и автоматизация – было предметом изучения ученых по крайней мере с 2010 года. В этой работе мы кратко рассматриваем первое десятилетие исследований в области обнаружения социальных ботов. С помощью лонгитюдного анализа мы обсуждаем основные тенденции исследований в области борьбы с ботами, а также факторы, которые делают эту бесконечную битву такой сложной. Используя уроки, извлеченные из анализа, предлагаем возможные нововведения, которые могли бы дать нам преимущество против обмана и манипуляций. 

Пандемия социальных ботов 

Социальные боты сосуществуют с людьми с первых дней существования социальных сетей. Тем не менее, у нас по-прежнему отсутствует точное и согласованное определение того, что такое социальный бот. Частично это происходит из-за того, что их изучают несколько сообществ, а также из-за многогранного и динамичного поведения этих сущностей, что приводит к различным определениям, каждое из которых сосредоточено на разных характеристиках. 

Компьютерные ученые и инженеры склонны определять ботов с технической точки зрения, уделяя особое внимание таким функциям, как уровни активности, полная или частичная автоматизация, использование алгоритмов и ИИ. Существование учетных записей, которые одновременно управляются алгоритмами и человеком, привело к более детальным определениям, и был введен термин «киборги» [3]. 

Социологов вместо этого обычно больше интересуют социальные или политические последствия использования ботов, и определения они дают соответствующие. 

CACM: десятилетие вычисления социальных ботов

Военная комната Facebook в Менло-Парке, Калифорния, 17 октября 2018 года, накануне второго тура выборов в Бразилии. Компания работала над тем, чтобы успокоить общественность на тему фальшивых аккаунтов, дезинформации и иностранного вмешательства, которые затуманивают обсуждение выборов на сайте. 

Социальные боты активно используются в разных целях: как полезных, так и нечестных [13]. Большинство существующих работ сосредоточено на обнаружении вредоносных социальных ботов. Причина проста, если принять во внимание классификацию, предложенную Штиглицем и др. [30]. В соответствии с намерениями и способностью имитировать людей боты могут быть 

  • доброкачественными, не стремящимися подражать людям (например, новостные и рекрутинговые боты, боты, используемые в чрезвычайных ситуациях); 
  • злоумышленниками, безжалостно пытающимися выдать себя за человека. 

Обнаружение первой категории ботов не представляет проблемы, и ученые посвятили большую часть усилий обнаружению второй, в том числе из-за того, что боты-злоумышленники вмешиваются в наши онлайн-экосистемы. 

Действительно, широкий спектр действий, которые выполняют социальные боты, и незначительная стоимость их массового создания и управления открывают возможность развертывания целых армий ботов для ведения информационной войны, искусственного завышения популярности публичных персон и манипулирования мнениями. В начале внезапного всплеска интереса к автоматизации и обману было проведено несколько исследований, в которых измеряли масштабы пандемии социальных ботов. Результаты вызывают беспокойство. Среднее присутствие ботов оценивалось в районе 15% всех активных учетных записей Twitter в 2017 году [31] и 11% всех учетных записей Facebook в 2019-м [38]. 

Когда на карту поставлены политические или экономические интересы, присутствие ботов резко возрастает. Исследование 2019 года показало, что 71% пользователей Twitter, упоминающих трендовые акции США, скорее всего, являются ботами [8]. Аналогичные результаты были получены в отношении присутствия ботов в онлайн-дискуссиях о криптовалюте [24] и в рамках «инфодемии» о пандемии COVID-19 [14]. 

В других исследованиях особое внимание уделялось политической активности ботов. Был сделан вывод о том, что боты играли роль в стратегических информационных операциях, организованных в преддверии многочисленных мировых событий, как показано на рисунке 1. 

Несмотря на участие в политических дискуссиях в странах, выделенных на рисунке, боты не всегда имеют реальное влияние. Фактически у ученых до сих пор отсутствует широко распространенный консенсус в отношении влияния социальных ботов. При этом некоторые исследования сообщают об их ключевой роли в увеличении распространения дезинформации, поляризации и языка ненависти [27][29] и конкурирующих результатах, утверждающих, что боты не играют значительной роли в этих процессах [32]. 

Повсеместное распространение социальных ботов частично обусловлено доступностью открытого исходного кода. Касательно него Бенце Коллани сообщил об экспоненциальном росте, который привел в 2016 году к более чем 4000 репозиториев на GitHub, содержащих код для развертывания Twitter-ботов [22]. Другие расследования показали, что эта тенденция еще не остановилась. Фактически к 2018 году ученые обнаружили более 40 000 общедоступных репозиториев ботов [1]. Вырисовывается картина, в которой социальные боты являются одним из излюбленных орудий обмана и манипулирования толпой. Эти результаты подтверждаются платформами, где проводились информационные операции, а именно Facebook [b], Twitter [c] и Reddit [d], которые с 2016 года заблокировали десятки тысяч учетных записей, участвующих в скоординированной деятельности. 

Социальные боты и способы их обнаружения

Рисунок 1. Пандемия социальных ботов

Надпись на рисунке 1: Взгляд на ситуацию в мире. На материалах из 39 стран, в научной литературе которых задокументированы политические манипуляции со стороны социальных ботов... Хотя список статей является иллюстративным и не исчерпывающим, он, тем не менее, позволяет понять распространение пандемии социальных ботов. 

Учитывая роль ботов, влияющих на онлайн-экосистемы, было предложено множество методов их обнаружения и удаления вдобавок к широкому освещению новостными СМИ. Сегодня новые исследования по характеристикам, обнаружению и оценке воздействия ботов публикуются с впечатляющей скоростью, как показано на Рисунке 2. Если эта тенденция сохранится, к 2021 году будет публиковаться более одной новой статьи в день. Возможно, еще более важно, что скорость публикации новых статей подразумевает огромные усилия во всем мире по остановке распространения пандемии социальных ботов. Но к чему все эти усилия? Чтобы ответить на этот вопрос, сначала сделаем шаг назад в первые дни обнаружения социальных ботов. 

CACM: десятилетие вычисления социальных ботов

Рисунок 2. Публикации по годам, касающиеся характеристик, обнаружения и оценки воздействия социальных ботов 

Надписи на рисунке 2: С 2014 года количество публикаций по теме ботов резко возросло. С 2021 года в день будет публиковаться более одной новой статьи о социальных ботах. 

Красная, зеленая и синия линии – количество публикаций в научных индексах Scopus, dimensions.ai и Web of Science соответственно. Сплошные линии – данные, пунктирные – тренд. 

2010 год – первые работы по обнаружению социальных ботов. 

2011-й – свидетельство их эволюции. 

2015-й – DARPA (Управление перспективных исследовательских проектов Министерства обороны США) пытается что-то сделать с Twitter-ботами. 

2016-й – внимание к обману и автоматизации по всему миру. 

2018-й – фокус на скоординированном неаутентичном поведении и появление дипфейков. 

Рассвет обнаружения социальных ботов 

Первая работа, специально посвященная обнаружению автоматических учетных записей в социальных сетях, относится к январю 2010 года [37]. В первые дни большинство попыток обнаружения ботов имело две отличительные особенности: они были основаны на контролируемом машинном обучении и на анализе индивидуальных аккаунтов. Другими словами, при наличии группы учетных записей для анализа детекторы отдельно применялись к каждой учетной записи группы, которой они присваивали двоичную метку (бот либо пользователь). 

Этот подход к обнаружению ботов схематически представлен в части A рисунка 3. Здесь ключевое предположение состоит в том, что боты и люди четко отделимы и что каждая вредоносная учетная запись имеет индивидуальные особенности, которые делают ее отличной. Этот подход к задаче обнаружения социальных ботов также основан на применении готовых универсальных алгоритмов классификации для исследуемых учетных записей и на разработке эффективных функций машинного обучения для отделения ботов от легитимных учетных записей. 

CACM: десятилетие вычисления социальных ботов

Рисунок 3. Различия между ранним и групповым подходами к обнаружению социальных ботов

Надписи на рисунке 3: В ранних подходах (часть A) контролируемый детектор применяется отдельно к каждой исследуемой учетной записи. Если бот не выглядит сильно отличающимся от учетной записи, управляемой человеком, как в случае с недавно появившимися ботами, он, вероятно, не будет обнаружен. 

В более поздних подходах (B) детектор анализирует группу учетных записей в поисках следов скоординированного и синхронизированного поведения. Вероятность обнаружения больших групп скоординированных учетных записей выше, чем сложных индивидуальных ботов. Тем не менее, ошибки прогнозирования все еще могут возникать для небольших групп слабо скоординированных ботов, которые могут предоставить недостаточную информацию для их обнаружения, или для групп людей, которые могут выглядеть как автоматизированные. Эти вопросы в настоящее время представляют собой нерешенные проблемы в данной области. 

Значки 

Лицо в шляпе – бот-детектор.

Пустой кружой – человек.

Пунктирный квадрат – цель бот-детектора.

Красный кружок – бот старого типа.

Розовый кружок – эволюционировавший тип бота.

Желтый квадрат – аккаунт, помеченный как бот. 

Например, Креши и другие разработали набор контролируемых классификаторов машинного обучения для обнаружения так называемых поддельных подписчиков – типа автоматизированных учетных записей, обычно используемых для искусственного повышения популярности публичных персон, которые их покупают [4]. Поддельных подписчиков можно купить всего за $12 за тысячу в общедоступной части сети [имеется в виду разница между поверхностной частью и даркнетом]. Результат: такие боты довольно распространены. 

Авторы проанализировали около 3000 фальшивых подписчиков, полученных от разных поставщиков, и обнаружили, что упрощенный характер этих учетных записей делает их обнаружение довольно простым, даже при использовании всего 19 функций, не требующих больших затрат на данные и вычисления [4]. Фальшивым подписчикам не нужно выполнять сложные задачи, такие как создание контента или участие в разговорах. 

Другие системы обнаружения используют большое количество функций машинного обучения для обнаружения социальных ботов. Используя более 1200 функций учетной записи, Botometer оценивает возможных ботов на основе характеристик их профиля, структуры социальных сетей, контента, который они создают, выражений настроения и времени их действий [35]. Вместо того, чтобы сосредоточиться на конкретном типе ботов, как сделал Креши, Ботометр представляет собой бот-детектор «общего назначения». Однако универсальность и простота развертывания детектора уравновешиваются сниженной точностью обнаружения ботов [5][17]. 

Два предыдущих детектора одновременно анализируют несколько параметров подозрительных учетных записей, чтобы обнаружить возможных ботов. Другие системы вместо этого сосредоточены исключительно на характеристиках сети, текстовом содержании репостнутых сообщений или информации профиля. Эти системы, как правило, проще в использовании, поскольку они анализируют только один аспект комплексного поведения ботов. 

Несмотря на достижение многообещающих первоначальных результатов, эти ранние подходы имеют ряд недостатков. Первая проблема при разработке контролируемого детектора связана с доступностью набора данных для использования на этапе обучения классификатора. В большинстве случаев достоверная информация отсутствует, и ярлыки просто присваиваются операторами, которые вручную анализируют данные. Критические проблемы возникают как следствие различных определений социальных ботов, что приводит к разным схемам маркировки [18]. Более того, было доказано, что люди страдают от предвзятости в интерпретации и во многом не могут обнаружить сложных ботов. Только 24% ботов правильно помечены как таковые людьми в эксперименте [5]. 

Кроме того, эти подходы обычно выводят двоичные классификации. Однако во многих случаях вредоносные учетные записи демонстрируют сочетание автоматизированного и управляемого человеком поведения, которое нельзя объяснить простыми двоичными метками. Что еще хуже, серьезный недостаток индивидуальных детекторов вызван эволюционной природой социальных ботов. 

Проблема эволюции ботов 

Первоначальный успех в обнаружении социальных ботов заставил их разработчиков применять изощренные контрмеры. Из-за этого новые боты часто обладают характеристиками, которые значительно затрудняют их обнаружение. Этот порочный круг ведет к разработке более сложных социальных ботов и обычно называется эволюцией ботов. 

Работы, опубликованные между 2011 и 2013 годами Чао Янг и другими исследователями, дали первые свидетельства и теоретические основы для изучения эволюции социальных ботов [34]. Первая волна социальных ботов, населявших социальные сети примерно до 2011 года, состояла из довольно упрощенных ботов. Это были учетные записи с очень низкой репутацией из-за небольшого количества социальных связей и опубликованных сообщений, а также с явными признаками автоматизации, как показано в части A рисунка 4. 

Социальные боты, изученные Чао Янг и др., оказались более популярными и заслуживающими доверия, учитывая относительно большое количество их социальных связей. Эти боты больше не спамили одни и те же сообщения снова и снова. 

Используя эти результаты, авторы разработали контролируемый классификатор для обнаружения развивающихся ботов. Первоначально классификатор оказался способен точно обнаруживать вторую волну ботов. Прошло время, и новые исследования подтвердили рост третьей волны ботов, которая распространилась через социальные сети с 2016 года [5][13], как показано в части C на рисунке 4. 

К сожалению, классификатор Янг не был успешным в обнаружении третьей волны вредоносных аккаунтов [6]. Пример служит неофициальным свидетельством эволюции ботов. Дополнительные данные представлены в других исследованиях, в которых оценивалась выживаемость различных ботов, то есть их способность постоянно уклоняться от обнаружения и избегать удаления с социальных платформ, а также способность людей обнаруживать ботов в типичных ситуациях. 

Результаты показали, что только 5% новых ботов удаляются с социальных платформ, тогда как старые удаляются в 60% случаев [5]. Сотни технически подкованных пользователей соцсетей, которые участвовали в эксперименте, смогли отличить новых ботов от реальных пользователей только в 24% случаев. Те же пользователи могли обнаружить старых ботов в 91% случаев [5]. 

Социальные боты и способы их обнаружения

Рисунок 4. Пример профилей Twitter, показывающий проблему эволюции ботов

Надпись на рисунке 4: Боты первой волны (часть A) были очень упрощенными, с небольшим количеством личной информации и социальных связей. Их можно было легко отличить от учетных записей, управляемых людьми. Вторая волна состояла из более сложных учетных записей (часть B), содержащих подробную личную информацию. Чтобы повысить свой авторитет, эти боты часто подписывались друг на друга, создавая четко идентифицируемые ботнеты. В настоящее время социальные боты (часть C) настолько тщательно спроектированы, что больше похожи на учетные записи, управляемые человеком (часть D), чем на ботов. У них много настоящих друзей и подписчиков, они используют украденные имена и изображения профилей и перемежают несколько вредоносных сообщений с множеством нейтральных. 

Результаты говорят нам, что современных сложных ботов трудно отличить от легитимных учетных записей, если анализировать их по отдельности, как это делали контролируемые классификаторы и участники краудсорсинга. Фактически новые боты больше похожи на учетные записи, управляемые человеком, чем на ботов. Одной из причин того, что многие боты выглядят как человек, является усиление гибридизации автоматизированного и управляемого человеком поведения. Эти киборги существуют и действуют между традиционными концепциями ботов и людей, что приводит к ослаблению различий и дублированию поведения между ними. 

Более того, теперь они используют то же технологическое оружие, что и охотники на них: методы искусственного интеллекта для создания достоверных текстов (например, с помощью моделей глубокого обучения GPT-2 и 3) и изображений профиля (например, с помощью моделей глубокого обучения StyleGAN [g]). 

Действительно, возможность вредоносных учетных записей использовать deepfake-тексты, изображения профилей и видео вызывает беспокойство и заслуживает повышенного внимания [10]. Кейт Старберд обсудила связанный с этим вопрос в статье в Nature [28]. Она утверждает, что границы между «фальшивым» и «настоящим» стираются. К этому можно добавить, что человекоподобные боты и киборги являются лишь верхушкой айсберга, [действуя] вместе с новыми формами обмана, такими как политические тролли и «ничего не подозревающие люди», которые сделают информационный онлайн-ландшафт еще более мрачным. 

На рисунке 4 представлены несколько примеров профилей Twitter, которые демонстрируют, как реальные боты развивались на протяжении многих лет. Как одна из форм «социального веб-вируса», боты мутировали. Постепенно остановить пандемию социальных ботов стало намного труднее. В рамках этой глобальной картины дихотомические классификации – такие как человек против бота, поддельное против реального, скоординированное против несогласованного – могут представлять собой чрезмерное упрощение, неспособное охватить сложность этих явлений и вряд ли дающее точные и действенные результаты. 

В конечном итоге, результаты эволюции онлайн-автоматизации и обмана говорят нам о том, что наивное предположение ранних подходов к контролируемому обнаружению ботов, согласно которым боты четко отделены от легитимных учетных записей, больше не актуально. 

Расцвет групповых подходов 

Трудности обнаружения сложных ботов с помощью ранних подходов быстро породили новое направление исследований. С 2012–2013 гг. несколько разных команд независимо друг от друга предложили новые системы, которые, несмотря на то, что основывались на разных методах и реализациях, разделяли одни и те же концепции и философию. 

Как схематически показано на рисунке 3 (часть B), основной характеристикой этих новых систем является ориентация на группы аккаунтов, а не на отдельные учетные записи. Обоснование этого выбора заключается в том, что боты действуют в координации с другими ботами, формируя бот-сети для усиления своего воздействия [40]. 

Существование бот-сетей не обязательно означает, что аккаунты явно связаны в социальной сети, а скорее – что ими манипулирует единое целое и что они разделяют общие цели. Таким образом, ботнеты оставляют после себя больше следов автоматизации и координации, чем сложные одиночные боты [5]. 

Разработка методов выявления подозрительно скоординированного и синхронизированного поведения, вероятно, даст лучшие результаты, чем анализ отдельных аккаунтов. Кроме того, анализируя большие группы учетных записей, детекторы получают доступ к большему количеству данных для подпитки мощных, но требовательных к данным, алгоритмов ИИ. 

В 2018 году, примерно через пять лет после появления группового подхода к обнаружению ботов, Facebook [h] и Twitter [i] также признали важность сосредоточения внимания на скоординированном и неаутентичном поведении. 

Вторая общая черта большинства групповых детекторов – это предложение важных алгоритмических вкладов, что позволяет перейти от универсальных алгоритмов машинного обучения, таких как вспомогательные векторные машины и деревья решений, к специальным алгоритмам, специально разработанным для обнаружения ботов. Многие групповые детекторы основаны на неконтролируемых или частично контролируемых подходах. Идея состоит в том, чтобы преодолеть недостатки обобщения контролируемых детекторов, которые сильно ограничены доступностью исчерпывающих и надежных наборов обучающих данных [11]. 

Чтобы количественно продемонстрировать рост групповых подходов к обнаружению ботов, на рисунке 5 показаны результаты обширной лонгитюдной классификации. Было изучено более 230 статей, в которых предлагалась методика обнаружения ботов, и вручную классифицировали каждый детектор по двум ортогональным измерениям. Первое измерение (часть A) указывает, нацелены ли детекторы на отдельные учетные записи или группы учетных записей. Затем в части B классифицированы детекторы в соответствии с их высокоуровневым подходом к задаче. 

В частности, детекторы классифицированы на основании следующего: 

  • эвристики, то есть основанности на простых правилах; 
  • краудсорсинге – то есть учете мнения экспертов; 
  • контролируемого машинного обучения – например, основанного на классификации и требующего маркированного набора обучающих данных; 
  • неконтролируемого машинного обучения – например, основанного на кластеризации, не требующего помеченных данных для обучения; 
  • или на состязательных подходах, включая состязательное машинное обучение. 

Чтобы лучше объяснить методологию, приводим несколько примеров, показывающих, как были классифицированы известные детекторы ботов. Система, предложенная Руаном и др. [26], предназначена для обнаружения скомпрометированных аккаунтов – изначально законных, захваченных злоумышленником. 

Первоначально он создает поведенческий профиль для каждой исследуемой учетной записи. Затем система может выявлять скомпрометированные аккаунты с помощью обнаружения аномалий, когда поведение значительно отличается от соответствующего профиля. Эта система классифицируется как индивидуальный детектор (поскольку поведенческий профиль учетной записи зависит исключительно от ее собственных действий) и как неконтролируемый детектор (поскольку он использует метод обнаружения аномалий). 

И наоборот, другая система ищет подозрительно большие сходства между последовательностью действий обширных групп учетных записей [6]. Активность каждого аккаунта кодируется в виде строки, а сходство между действиями учетной записи вычисляется путем применения к таким строкам самой длинной общей метрики подпоследовательности. Подозрительно длинные подпоследовательности между строками активности идентифицируются с помощью обнаружения пиков, и все те учетные записи, которые имеют общую подпоследовательность действий, помечаются как боты. 

Учитывая такие характеристики, эта работа способствует созданию групповых детекторов ботов (поскольку анализирует группу аккаунтов в поисках аналогичных последовательностей действий), а также подходам неконтролируемого машинного обучения (поскольку использует алгоритм неконтролируемого обнаружения пиков). 

Обобщая два предыдущих примера, отметим несколько интересных закономерностей, вытекающих из классификации. Подавляющее большинство техник, выполняющих сетевой анализ, например, с учетом графа социальных сетей или взаимодействий аккаунтов, классифицируются как групповые. Чаще всего они также предлагают неконтролируемые подходы. Напротив, все техники, основанные на анализе текстового содержания опубликованных сообщений, такие как работы, в которых используются исключительно методы обработки естественного языка, являются контролируемыми детекторами, которые анализируют отдельные учетные записи. 

CACM: десятилетие вычисления социальных ботов

Рисунок 5. Продольная категоризация 236 бот-детекторов, опубликованных с 2010 года

Надписи на рисунке 5: Точки данных указывают количество новых детекторов каждого типа, опубликованных в конкретном году. В части A детекторы классифицируются как ориентированные на анализ отдельных учетных записей или на анализ групп учетных записей. В части B те же детекторы классифицируются на основе их высокоуровневого подхода к задаче. Обе части четко документируют рост нового подхода к обнаружению ботов, который характеризуется групповым анализом и множеством неконтролируемых детекторов. 

Интересно, что плато, которого достигли неконтролируемые подходы с 2017 года, произошло в связи с недавним ростом числа состязательных подходов. 

Надпись слева от графиков: число новых бот-детекторов. 

Линии на первом графике: групповые, индивидуальные [подходы]. 

Линии на втором графике: состязательный [подход], краудсорсинг, эвристика, контролируемый, неконтролируемый. 

Используя результаты классификации, представленные на рисунке 5, можно сделать дополнительные выводы. Во-первых, растущая тенденция публикации ботов-детекторов следует за общей тенденцией интереса к социальным ботам, ранее показанной на рисунке 2. Действительно, с 2015 года ежегодно увеличивается количество ботов-детекторов. 

Из тенденций, показанных в части А, поражает очевидное свидетельство, что групповые подходы, основанные на анализе коллективного поведения, становятся все более частыми. Фактически в 2018 году количество вновь предложенных групповых детекторов впервые превысило количество детекторов на основе анализа индивидуальных аккаунтов. 

В части B мы отмечаем, что подходам к обнаружению ботов, основанным на эвристике и краудсорсинге, уделялось очень мало внимания. Вероятно, это связано с множеством проблем с разработкой этих систем, которые в конечном итоге ограничивают их применимость, масштабируемость и производительность обнаружения. Вместо этого количество новых контролируемых детекторов постоянно растет с 2012 года, несмотря на их серьезные проблемы с обобщением [11]. 

Внедрение неконтролируемого машинного обучения началось в 2013 году с появлением групповых подходов и теперь, похоже, является постоянным. Интересно, что плато, достигнутое неконтролируемыми подходами, совпало с ростом числа состязательных, которые могут занять свое место в ближайшие годы. Хотя точное количество новых детекторов ботов для каждого типа может немного отличаться при анализе различных наборов документов, общая картина, которая вырисовывается из рисунка 5 и документирует тенденции индивидуального, группового и состязательного подходов, ясна, надежна и понятна. Вследствие этого изменения парадигмы детекторы на основе групп особенно эффективны при идентификации развивающихся, скоординированных и синхронизированных аккаунтов. Например, несколько групповых детекторов реализуют подходы на основе графов и стремятся выявлять подозрительные шаблоны связей учетных записей [20][24]. Эти методы подходят для изучения пользователей, взаимодействующих как с контентом (например, ретвиты), так и с другими пользователями (например, подписки на других пользователей). 

Скоординированное и синхронизированное поведение проявляется в виде почти полностью связанных сообществ в графах, плотных блоков в матрицах смежности или своеобразных паттернов в спектральных подпространствах [21]. В других методах использовались неконтролируемые подходы для выявления аномальных паттернов во временном поведении групп аккаунтов в твитах и ретвитах [2][23]. 

Одним из способов выявления учетных записей с подозрительно синхронизированным поведением является вычисление показателей расстояния из временных рядов учетных записей и последующая их кластеризация. Обоснование этого подхода основано на доказательствах, свидетельствующих о том, что человеческое поведение по своей сути более разнородно, чем автоматизированное [7]. 

Следовательно, большой кластер учетных записей с очень похожим поведением может указывать на присутствие ботнета даже при отсутствии явных связей между аккаунтами.

Расстояние между временными рядами учетных записей вычислялось как коэффициент корреляции деформации на основе динамического преобразования времени [2] или как евклидово расстояние между векторами признаков, вычисленное автокодировщиком LSTM [23], типом глубокой нейронной сети, которая особенно подходит для извлечения скрытых признаков из последовательных данных. 

Как показывает переход от индивидуальных детекторов к групповым, общий подход к задаче обнаружения ботов может иметь серьезные последствия для эффективности обнаружения. В то же время некоторые научные сообщества склонны придерживаться определенного подхода. Например, работы, опубликованные в сообществе, занимающемся обработкой естественного языка, фокусируются на текстовом контенте. Это приводит к появлению множества контролируемых классификаторов, которые анализируют учетные записи индивидуально и дают двоичные метки. Напротив, сообщество сложных сетей предпочитает подходы, основанные на графах. Как следствие, некоторые комбинации подходов – прежде всего, текстовые детекторы, которые выполняют неконтролируемый групповой анализ – почти не изучены и определенно недостаточно представлены в ландшафте существующих детекторов ботов. В будущем было бы целесообразно приложить усилия в направлениях, которые до сих пор по большей части игнорировались. 

Взгляд в будущее обнаружения обмана 

До сих пор подчеркивалось, что произошел переход от индивидуальных детекторов к групповым, в попытке сопоставить эволюцию социальных ботов. Теперь рассмотрим последние достижения в этой области, чтобы получить представление о будущем обнаружения обмана. 

Во-первых, мы наблюдаем, что индивидуальный и групповой подходы к обнаружению социальных ботов следуют реактивной схеме. На практике, когда ученые и администраторы соцсетей идентифицируют новую группу аккаунтов, которые ведут себя неправильно и не могут быть эффективно обнаружены с помощью существующих методов, они реагируют и начинают разработку новой системы обнаружения. Следовательно, движущим фактором для разработки новых и лучших детекторов всегда был вред ботов. Основным следствием этого подхода является то, что улучшения в обнаружении злоумышленников обычно происходят только через некоторое время после сбора доказательств нового вреда. Таким образом, злоумышленники (боты, киборги и тролли) извлекают выгоду из времени, необходимого для проектирования, разработки и развертывания нового эффективного детектора, в течение которого они по сути могут свободно вмешиваться в онлайн-среду. 

Другими словами, ученые постоянно на шаг отстают от разработчиков вредоносных аккаунтов. Это отставание, возможно, объясняет текущую ситуацию с нашими социальными экосистемами: несмотря на растущее количество существующих методов обнаружения, влияние ботов и других злоумышленников на наши онлайн-обсуждения, похоже, не уменьшалось. 

Второе наблюдение связано с использованием машинного обучения для обнаружения социальных ботов. Подавляющее большинство алгоритмов машинного обучения предназначены для работы в стационарных и нейтральных, если даже не безопасных средах. Когда предположения о стационарности и нейтральности нарушаются, алгоритмы дают ненадежные прогнозы, которые приводят к резкому снижению производительности [15]. 

Примечательно, что задача обнаружения социальных ботов не является ни стационарной, ни нейтральной. Предположение о стационарности нарушается механизмом эволюции ботов, в результате которого учетные записи с течением времени демонстрируют различное поведение и характеристики. Также предположение о нейтральности явно нарушается, поскольку разработчики ботов активно пытаются обмануть детекторы. Как следствие, те алгоритмы, на которые мы полагались и которые демонстрировали отличные результаты обнаружения в исследованиях, фактически сильно ограничены в шансах обнаружить ботов в дикой среде. Разработки в области машинного обучения могут прийти на помощь и, возможно, смягчить обе проблемы. 

Состязательное машинное обучение – это парадигма, специально разработанная для применения в этих сценариях, представляющих противников, заинтересованных в обмане изученных моделей [15]. Его высокоуровневой целью является изучение уязвимостей существующих систем и возможных атак для их использования до того, как эти уязвимости будут эффективно использованы злоумышленниками. Раннее обнаружение уязвимостей, в свою очередь, может способствовать разработке более надежных систем обнаружения. 

Одним из практических способов реализации этого видения является создание и экспериментирование примеров состязательных сетей, то есть экземпляров для ввода, специально созданных для того, чтобы вызывать ошибки в системах машинного обучения. Все задачи, связанные с обнаружением онлайн-обмана, манипуляций и автоматизации, по своей сути являются состязательными. Таким образом, они представляют собой удобные области применения для состязательного машинного обучения. 

Эта интуитивная догадка привела к появлению первых статей, опубликованных в 2018–2019 гг., которые положили начало разработке состязательного подхода к обнаружению ботов, как показано в части B рисунка 5. В так называемом состязательном обнаружении ботов ученые экспериментируют с осмысленными примерами состязательности, с помощью которых они всесторонне тестируют возможности существующих детекторов ботов [9]. В этом контексте примерами состязательности могут быть сложные типы существующих ботов и троллей, которым удается уклоняться от обнаружения с помощью современных методов, или даже ботов, которые еще не существуют, но чье поведение и характеристики моделируются, как это сделали Креши и др. [9], или ботов, разработанных специально для экспериментов, как это сделано Гриммом и др. [17]. 

Поиск хороших примеров состязательности может помочь ученым понять слабые стороны существующих систем обнаружения ботов. В результате охотникам за ботами больше не нужно будет ждать новых вредных действий ботов, чтобы адаптировать свои методы. Вместо этого они смогут проактивно (а не реактивно) тестировать их. 

Кроме того, эта парадигма намеренно учитывает злоумышленников, обеспечивая более высокие гарантии обнаружения обмана. Предыдущий анализ подчеркивает, что первоначальные усилия по состязательному обнаружению ботов были продиктованы творчеством некоторых исследователей и охватили лишь несколько случаев с ограниченной применимостью [9][17]. В ближайшем будущем в них могли бы использоваться последние разработки в области ИИ. 

Генеративные состязательные сети (GAN) представляют собой мощную среду машинного обучения, в которой две конкурирующие сети глубокого обучения совместно обучаются в теоретико-игровой среде [15]. В частности, GAN состоит из сети-генератора, которая создает экземпляры данных, и сети-дискриминатора, которая классифицирует экземпляры данных, объединенные, как показано на рисунке 6, где GAN создается для общей задачи обнаружения обмана. Целью генератора является создание экземпляров синтетических данных, которые напоминают свойства реальных органических данных, в то время как типичная цель дискриминатора – классифицировать экземпляры входных данных как синтетические или органические. 

Дискриминатор оценивается на основе эффективности его двоичной классификации, в то время как генератор – с точки зрения его способности вызывать ошибки в дискриминаторе, следовательно, отсюда вытекает конкуренция между двумя сетями. 

Социальные боты и способы их обнаружения

Рисунок 6. Обнаружение состязательного обмана на основе генеративных состязательных сетей (GAN)

Надписи на рисунке 6: Сеть-генератор используется для создания большого количества состязательных примеров, напоминающих свойства реальных вредоносных образцов. Сеть-дискриминатор обучена различать злонамеренные (реальные или сгенерированные) и легитимные примеры. Совместно обучая две сети, генератор учится создавать более сложные вредоносные примеры, в то время как дискриминатор улучшает свои общие характеристики классификации, поскольку он обучается на сложных примерах. 

Эту концептуальную основу можно применить ко многим задачам, включая обнаружение дезинформации, социальных ботов и троллей. 

Оранжевая стрелка – сгенерированные примеры вредоносного поведения. 

Красная стрелка – реальные примеры вредоносного поведения. 

Зеленая стрелка – реальные примеры легитимного поведения. 

Серая фигура – метки (вредоносное/законное поведение). 

Фиолетовая фигура – оценка. 

Первоначально сети GAN предлагались как форма генеративной модели, то есть в центре внимания была сеть-генератор. Ярким примером такого рода является GAN, обученная Ву и др. [33] для создания состязательных примеров социальных ботов, которые улучшили обучение последующих детекторов. Однако с конечной целью обеспечения еще больших улучшений в обнаружении обмана можно представить внедрение GAN для обучения более эффективных сетей-дискриминаторов. 

В частности, генератор GAN можно использовать в качестве генеративной модели для создания множества вероятных состязательных примеров, преодолевая таким образом ранее упомянутые ограничения в этой задаче и нехватку помеченных наборов данных. Затем всю сеть GAN можно было бы использовать для тестирования дискриминатора на примерах противоборства и для улучшения его характеристик обнаружения. Эта парадигма никогда не применялась к задаче обнаружения социальных ботов, но была протестирована с многообещающими результатами для связанных задач, таких как генерация/обнаружение фальшивых новостей [39]. 

Состязательная концепция, набросанная на рисунке 6, достаточно общая для применения в решении широкого набора задач по обнаружению обмана, включая обнаружение социальных ботов, киборгов, троллей и неточной информации и дезинформации. Кроме того, в отличие от существующих состязательных подходов к обнаружению ботов, этот основан на устоявшейся и успешной структуре машинного обучения, а не на специальных решениях, не имеющих широкого применения. 

Несмотря на большие надежды на состязательные подходы к обнаружению обмана и автоматизации, это направление исследований все еще находится в зачаточном состоянии и, вероятно, из-за своей новизны, все еще отстает от более традиционных подходов. Таким образом, усилия по состязательному обнаружению могут быть успешными только в том случае, если научное сообщество решит совместно ответить на многие открытые проблемы. Среди них – разработка методов создания множества различных видов состязательных примеров и оценка того, являются ли эти примеры реалистичными и репрезентативными для будущих вредоносных учетных записей. 

Несмотря на эти проблемы, анализ и полученные к настоящему времени результаты сильно мотивируют будущие усилия в этом направлении, о чем также свидетельствует вспыхнувшая состязательная тенденция, изображенная на рисунке 5. 

Открытые вызовы и путь вперед 

Экспоненциально растущий объем работ по обнаружению социальных ботов, показанный на рисунке 2, убеждает, что в ближайшие годы предстоит приложить немало усилий для борьбы с этой проблемой. Однако в то же время он ставит и некоторые новые проблемы. Во-первых, становится все более важным организовать этот огромный объем работы. Это не только поспособствует более эффективному использованию знаний, но также позволит исследователям более эффективно предлагать новые решения, избегая изучения путей, которые уже оказались безуспешными. 

Во-вторых, ожидаемый рост публикаций неизбежно означает, что будет предложено больше детекторов ботов. С ростом числа разрозненных методов обнаружения становится все более важным иметь стандартные средства, такие как эталонные тесты, базовые разработки и эталонные наборы данных, с которыми можно их оценивать и сравнивать. Нынешняя ситуация такова, что у нас есть чемодан, заполненный всевозможными инструментами. К сожалению, мы действительно не знаем, как их использовать с прибылью, в чем разница между ними и, в конечном счете, чего они действительно стоят! Покупка еще одного инструмента мало чем поможет. Вместо этого несколько целевых инвестиций, направленных на всестороннюю оценку и сравнение текущих инструментов, значительно повысили бы полезность всего чемодана. 

Один аспект, который часто упускается из виду при оценке детекторов ботов, – это их обобщаемость, то есть способность достигать хороших результатов обнаружения также для типов ботов, которые изначально не рассматривались. В этом отношении анализ закладывает основы двумерного пространства обобщаемости, схематически изображенного на рисунке 7. Желательный сценарий на будущее будет включать возможность оценивать любой новый детектор ботов на фоне множества различных типов социальных ботов, таким образом продвигаясь вперед по оси Y на Рисунке 7, следуя многообещающим подходам, недавно разработанным Экиверрией и др. [11] и Янгом и др. [36]. 

Было бы также полезно сравнивать детекторы с различными версиями существующих ботов, таким образом имитируя развивающиеся характеристики ботов. Этого можно достичь, применив ранее описанный состязательный подход для создания множества состязательных примеров, открывая возможность экспериментирования вдоль оси x пространства обобщения. 

Комбинирование этих двух параметров оценки и, таким образом, всестороннее исследование пространства обобщаемости, позволило бы надежно оценить возможности обнаружения нынешних и будущих методов, избегая, таким образом, завышенных оценок эффективности обнаружения. Чтобы достичь этой амбициозной цели, нужно сначала создать эталонные наборы данных, которые будут включать несколько различных типов вредоносных учетных записей, включая социальных ботов, киборгов и политических троллей, тем самым значительно увеличивая скудные ресурсы, существующие на сегодняшний день [j]. 

Здесь проблемы включают ограниченную доступность самих данных, недостающую или сомнительную информацию и устаревание существующих наборов данных, которые с трудом справляются с быстрой эволюцией вредоносных аккаунтов. В связи с этим крайне приветствуются инициативы по непрерывному обмену данными, такими, как у Twitter, по аккаунтам, участвующим в информационных операциях, поскольку они могут способствовать следующей волне исследований этих вопросов. 

Затем необходимо разработать дополнительные способы создания широкого спектра разнообразных примеров состязательности. Для этого потребуются количественные средства для оценки вклада, вносимого различными примерами состязательности, например, с точки зрения их новизны и разнообразия по отношению к существующим вредоносным аккаунтам. Эти проблемы в настоящее время остаются в значительной степени нерешенными и требуют самых больших усилий от научного сообщества. 

CACM: десятилетие вычисления социальных ботов

Рисунок 7. Двумерное пространство обобщаемости

Надписи на рисунке 7: Оси представляют собой измерения, по которым можно проверить возможности обобщения детекторов. Большинство существующих детекторов оцениваются при благоприятных условиях, то есть только в отношении определенного типа ботов (b0) и с данными, собранными в определенный момент времени (t0), что, возможно, переоценивает их возможности. Фактическая эффективность обнаружения при b ≠ b0 и t > t0 неизвестна. 

Более реалистичные оценки могут быть получены путем оценки детекторов в более общих условиях. Обобщения по оси Y можно добиться, приняв методологии оценки, например, предложенные Эчеверриа и др. [11]. Обобщение по оси Y может быть получено путем применения состязательных подходов, направленных на создание вариантов существующих в настоящее время ботов. 

Надпись слева от схемы – типы социальных ботов. 

Обобщения по: оценке ботов (по оси x), типам ботов (по оси y), тому и другому (по обеим осям). 

Сложность детектирования: легко (зеленый круг), сложнее (оранжевый круг), наиболее сложно (красный круг). 

Лонгитюдный анализ первого десятилетия исследований в области обнаружения социальных ботов выявил некоторые интересные тенденции. В первые дни были характерны простые контролируемые детекторы, анализирующие аккаунты индивидуально. Неконтролируемые детекторы появились в 2012–2013 гг. И сместили цель на группы учетных записей с некорректным поведением. Наконец, выделили новую тенденцию роста состязательных подходов. 

Анализ показал, что на протяжении более десяти лет мы боролись с каждой из угроз, исходящих от сложных социальных ботов, киборгов, троллей и сговорившихся людей, по отдельности. Теперь, благодаря распространению техник обмана с использованием ИИ, таких как дипфейки, наиболее изощренные из этих злоумышленников неизбежно станут неотличимы друг от друга, а также, вероятно, от законных учетных записей. Таким образом, становится все более необходимым сосредоточиться на выявлении техник, используемых для обмана и манипулирования, вместо того, чтобы пытаться классифицировать отдельные аккаунты по их характеру. 

Неаутентичная координация – важная часть головоломки обмана, поскольку злоумышленники используют ее для получения внимания и воздействия. Более того, они [состязательные подходы] не обращают внимания на разные типы вредителей. Другими словами, выводы и недавние размышления [в источниках][17][28] предполагают, что мы должны продолжать отходить от простых контролируемых подходов, фокусирующихся на индивидуальных учетных записях и производящих бинарные метки. Вместо этого нужно взять на себя задачу осознать всю сложность обмана, манипуляции и автоматизации, разработать неконтролируемые методы для выявления подозрительной координации. 

Кроме того, будущие методы не должны предоставлять чрезмерно упрощенные двоичные метки, как это часто делается и столь же часто критикуется, а должны вместо этого производить многогранные измерения степени подозрительной координации. 

Углубленный анализ выявил появление групповых подходов за несколько лет до того, как широкая общественность и сами социальные платформы признали «скоординированное неаутентичное поведение» основной угрозой нашим социальным онлайн-экосистемам. Среди наиболее актуальных проблем в этом направлении исследований – проблема масштабируемости групповых детекторов и внутренняя нечеткость «неаутентичной координации». 

Фактически масштабируемое и обобщаемое обнаружение координации все еще остается в значительной степени открытой проблемой, и пока предложено лишь несколько вкладов [в решение][12][25]. Аналогичным образом, вычислительные средства для различения подлинной и неаутентичной координации еще предстоит предложить и оценить. 

Интересно, что тот же анализ, который предвосхищал интерес всего мира к неаутентичной координации, теперь предполагает, что состязательные подходы могут дать нам преимущество в длительной борьбе с онлайн-обманом. 

Обобщая основные предложения, вытекающие из нашего обширного анализа, будущие методы обнаружения обмана должны: 

  • сосредоточиться на выявлении подозрительной координации независимо от характера отдельных учетных записей; 
  • избегать использования бинарных меток в пользу более нечетких и многогранных индикаторов; 
  • отдавать предпочтение неконтролируемым/частично контролируемым подходам, а не контролируемым;
  • учитывать в дизайне состязательность. 

Кроме того, часть огромных усилий, посвященных задаче обнаружения, также следует перераспределить, чтобы измерить воздействие этих явлений на человека и количественно оценить возможное воздействие. Только путем внесения этих изменений можно разработать инструменты, которые лучше отражают существующую реальность, обеспечивая тем самым действенные результаты для многих научных сообществ и заинтересованных сторон, которые рассматривают инструменты ИИ и больших данных как компас для приключений в опасном ландшафте онлайн-информации. 

Эти путеводные огни предстают перед нами как захватывающая и редкая возможность, которой у нас не было в прошлом. Реакция на эту возможность и ее использование теперь исключительно на наших плечах. 

Благодарности. Это исследование частично поддерживается Программой ЕС H2020 по схеме INFRAIA-01-2018-2019: Соглашение о гранте на исследования и инновации № 871042 SoBigData++: Европейская интегрированная инфраструктура для социального майнинга и анализа больших данных. 

Библиография 

  1. Assenmacher, D., Clever, L., Frischlich, L., Quandt, T., Trautmann, H. and Grimme, C. Demystifying Social Bots: On the Intelligence of Automated Social Media Actors. Social Media + Society. SAGE, 2020.
  2. Chavoshi, N., Hamooni, H., and Mueen, A. DeBot: Twitter bot detection via warped correlation. In The 16th International Conference on Data Mining (2016). IEEE, 817–822. 
  3. Chu, Z., Gianvecchio, S., Wang, H., and Jajodia, S. Detecting automation of Twitter accounts: Are you a human, bot, or cyborg? IEEE Trans, Dependable and Secure Computing 9, 6 (2012), 811–824. 
  4. Cresci, S., Di Pietro, R., Petrocchi, M., Spognardi, A., and Tesconi, M. Fame for sale: Efficient detection of fake Twitter followers. Decision Support Systems 80 (2015), 56–71. 
  5. Cresci, S., Di Pietro, R., Petrocchi, M., Spognardi, A., and Tesconi, M. The paradigm-shift of social spambots: Evidence, theories, and tools for the arms race. In Proceedings of the 26th Intern. World Wide Web Conf. Companion (2017). IW3C2. 
  6. Cresci, S., Di Pietro, R., Petrocchi, M., Spognardi, A., and Tesconi, M. Social fingerprinting: detection of spambot groups through DNA-inspired behavioral modeling. IEEE Transactions on Dependable and Secure Computing 15, 4 (2017), 561–576. 
  7. Cresci, S., Di Pietro, R., Petrocchi, M., Spognardi, A., and Tesconi, M. Emergent properties, models, and laws of behavioral similarities within groups of Twitter users. Computer Communications 150 (2020), 47–61. 
  8. Cresci, S., Lillo, F., Regoli, D., Tardelli, S., and Tesconi, M. Cashtag piggybacking: Uncovering spam and bot activity in stock microblogs on Twitter. ACM Trans. the Web 13, 2 (2019), 11. 
  9. Cresci, S., Petrocchi, M., Spognardi, A., and Tognazzi, S. Better Safe Than Sorry: An Adversarial Approach to Improve Social Bot Detection. In Proceedings of the 11th Intern. Conf. Web Science (2019). ACM. 
  10. Da San Martino, G., Cresci, S., Barrón-Cedeño, A., Yu, S., Di Pietro, R., and Nakov, P. 2020. A survey on computational propaganda detection. In Proceedings of the 29th Intern. Joint Conf. Artificial Intelligence (2020). 
  11. Echeverrìa, J., De Cristofaro, E., Kourtellis, N., Leontiadis, I., Stringhini, G., and Zhou, S. LOBO: Evaluation of generalization deficiencies in Twitter bot classifiers. In Proceedings of the 34th Annual Computer Security Applications Conf. ACM, 137–146. 
  12. Fazil, M. and Abulaish, M. A socialbots analysis-driven graph-based approach for identifying coordinated campaigns in Twitter. J. Intelligent & Fuzzy Systems 38 (2020), 2961–2977.
  13. Ferrara, E., Varol, O., Davis, C., Menczer, F., and Flammini, A. The rise of social bots. Commun, ACM 59, 7 (July 2016), 96–104. 
  14. Gallotti, R., Valle, F., Castaldo, N., Sacco, P., and De Domenico, M. Assessing the risks of "infodemics" in response to COVID-19 epidemics, 2020; arXiv:2004.03997 (2020). 
  15. Goodfellow, I., McDaniel, P., and Papernot, N. Making machine learning robust against adversarial inputs. Commun, ACM 61, 7 (July 2018). 
  16. Gorodnichenko, Y., Pham, T., and Talavera, O. 2018. Social Media, Sentiment and Public Opinions: Evidence from #Brexit and #USElection. Working Paper 24631. National Bureau of Economic Research, 2018. 
  17. Grimme, C., Assenmacher, D., and Adam, L. Changing perspectives: Is it sufficient to detect social bots? In Proceedings of the 10th Intern. Conf. Social Computing and Social Media (2018). 
  18. Grimme, C., Preuss, M., Adam, L., and Trautmann, H. Social bots: Human-like by means of human control? Big Data 5, 4 (2017). 
  19. Grinberg, N., Joseph, K., Friedland, L., Swire-Thompson, B., and Lazer, D. Fake news on Twitter during the 2016 US presidential election. Science 363, 6425 (2019), 374–378. 
  20. Jiang, M., Cui, P., Beutel, A., Faloutsos, C., and Yang, S. Catching synchronized behaviors in large networks: A graph mining approach. ACM Trans. Knowledge Discovery from Data 10, 4 (2016). 
  21. Jiang, M., Cui, P., Beutel, A., Faloutsos, C., and Yang, S. Inferring lockstep behavior from connectivity pattern in large graphs. Knowledge and Information Systems 48, 2 (2016), 399–428.
  22. Kollanyi, B. Where do bots come from? An analysis of bot codes shared on GitHub. Intern. J. Communication 10 (2016), 20. 
  23. Mazza, M., Cresci, S., Avvenuti, M., Quattrociocchi, W., and Tesconi, M. RTbust: Exploiting temporal patterns for botnet detection on Twitter. In Proceedings of the 11th Intern. Conf. Web Science (2019). ACM. 
  24. Nizzoli, L., Tardelli, S., Avvenuti, M., Cresci, S., Tesconi, M., and Ferrara, E. Charting the landscape of online cryptocurrency manipulation. IEEE Access 8 (2020), 113230–113245. 
  25. Pacheco, D., Hui, P., Torres-Lugo, C., Tran Truong, B., Flammini, A., and Menczer, F. 2020. Uncovering coordinated networks on social media, 2020; arXiv:2001.05658. 
  26. Ruan, X., Wu, Z., Wang, H., and Jajodia, S. Profiling online social behaviors for compromised account detection. IEEE Trans. Information Forensics and Security 11, 1 (2015), 176–187. 
  27. Shao, C., Luca Ciampaglia, G., Varol, O., Yang, K., Flammini, A., and Menczer, F. The spread of low-credibility content by social bots. Nature commun. 9, 1 (2018), 4787. 
  28. Starbird, K. Disinformation's spread: Bots, trolls and all of us. Nature 571, 7766 (2019), 449–449. 
  29. Stella, M., Ferrara, E., and De Domenico, M. Bots increase exposure to negative and inflammatory content in online social systems. In Proceedings of the National Academy of Sciences 115, 49 (2018), 12435–12440. 
  30. Stieglitz, S., Brachten, F., Ross, B., and Jung, A. Do social bots dream of electric sheep? A categorization of social media bot accounts. In Proceedings of the 17th Australasian Conf. Information Systems (2017). 
  31. Varol, O., Ferrara, E., Davis, C., Menczer, F., and Flammini, A. Online human-bot interactions: Detection, estimation, and characterization. In Proceedings of the 11th Intern. Conf. Web and Social Media. AAAI, 2017. 
  32. Vosoughi, S., Roy, D., and Aral, S. The spread of true and false news online. Science 359, 6380 (2018), 1146–1151. 
  33. Wu, B., Liu, L., Yang, Y., Zheng, K., and Wang, X. Using improved conditional generative adversarial networks to detect social bots on Twitter. IEEE Access 8 (2020), 36664–36680. 
  34. Yang, C., Harkreader, R., and Gu, G. Empirical evaluation and new design for fighting evolving twitter spammers. IEEE Trans. Information Forensics and Security 8, 8 (2013), 1280–1293.
  35. Yang, K., Varol, O., Davis, C., Ferrara, E., Flammini, A., and Menczer, F. Arming the public with artificial intelligence to counter social bots. Human Behavior and Emerging Technologies 1, 1 (2019), 48–61.
  36. Yang, K., Varol, O., Hui, P., and Menczer, F. Scalable and generalizable social bot detection through data selection. In Proceedings of the 34th AAAI Conf. Artificial Intelligence (2020).
  37. Yardi, S. Detecting spam in a Twitter network. First Monday 15, 1 (2010). 
  38. Zago, M., Nespoli, P., Papamartzivanos, D., Gil Perez, M., Gomez Marmol, F., Kambourakis, G., and Martinez Perez, G. Screening out social bots interference: Are there any silver bullets? IEEE Communications Mag. 57, 8 (2019), 98–104.
  39. Zellers, R., Holtzman, A., Rashkin, H., Bisk, Y., Farhadi, A., Roesner, F., and Choi, Y. Defending against neural fake news. In Proceedings of the 33rd Conf. Neural Information Processing Systems (2019). 9051–9062. 
  40. Zhang, J., Zhang, R., Zhang, Y., and Yan, G. The rise of social botnets: Attacks and countermeasures. IEEE Trans. Dependable and Secure Computing 15, 6 (2016), 1068–1082. 

Сноски 

a. https://bit.ly/2BogSgE

b. https://bit.ly/31wtDAk 

c. https://about.twitter.com/en_us/values/elections-integrity.html 

d. https://bit.ly/38eEgJl 

e. https://www.nytimes.com/interactive/2018/01/27/technology/social-media-bots.html 

f. https://openai.com/blog/better-language-models/ 

g. https://www.wired.com/story/facebook-removes-accounts-ai-generated-photos/ 

h. https://newsroom.fb.com/news/2018/12/inside-feed-coordinated-inauthentic-behavior/ 

i. https://help.twitter.com/en/rules-and-policies/platform-manipulation 

j. https://botometer.iuni.iu.edu/bot-repository/datasets.html 

k. https://transparency.twitter.com/en/information-operations.html 

l. https://bit.ly/2BrJAxd 

Об авторе 

Стефано Креши (s.cresci@iit.cnr.it) – исследователь Института информатики и телематики Итальянского национального исследовательского совета (Informatics and Telematics of the Italian National Research Council) в Пизе, Италия. 

Источник: Cresci Stefano. A Decade of Social Bot Detection // Communications of the ACM. 2020. Vol. 63. N10. P. 72-83.

Друзья, теперь вы можете поддержать Лайкни https://pay.cloudtips.ru/p/8828f748
Ваши донаты помогут нам и дальше радовать вас полезным контентом.

Нас удобно читать в соцсетях. Подписывайся!

Кое-что интересное:

Комментарии

0 комментариев
Чтобы оставить комментарий, войдите на сайт через:

Будь в курсе

Главные новости, кейсы и статьи за месяц – у тебя в почте:

Отправляя форму, вы принимаете условия обработки персональных данных