Технологии


Вопрос обработки больших массивов информации сегодня стоит  особенно остро. Гибридные угрозы требует навыков расшифровки информационных волн, рейтингования доверия к источникам и распространителям информации.  Необходимость анализа данных актуальна для разных сфер – торговой, инфраструктурной, кибернетической, дипломатической и военной. Особенно важны скорость принятия решений при недружественных воздействиях на информационное поле бизнеса, общества, государства.

Сервис Attack Index базируется на ряде математико-статистических методах обработки информации и интерпретации информационных потоков, которая была обоснована в научных работах и на практике.

Прежде всего, наш методы строятся на том, что современное информационное пространство предоставляет возможность получения практически любой информации по выбранному вопросу при наличии соответствующего инструментария. Его использование  позволяет анализировать взаимосвязи прошедших и текущих событий с информационной активностью выбранного круга источников. Такой подход обусловлен, прежде всего, статистикой.

Большие Данные

Только в 2014 году Google проиндексировала 60 триллионов документов в интернете, а c 2016 по 2025 год IDC прогнозирует десятикратный рост количества данных, до 163 зеттабайт. А по прогнозам компании Cisco в 2021 году в секунду будет передаваться более 100 000 ГБ данных. В 2016 эта цифра составляла почти 27 000 ГБ в секунду.

В случае множества информационных потоков, которые образуются отдельными тематическими информационными потоками, необходимо учитывать динамику каждого из них в отдельности. В случае изучения общего информационного потока часто наблюдается «перетекание» публикаций из одних, которые теряют актуальность, в другие.

Общая же тенденция изменений в исследуемой череде событий называется трендом. Весьма популярное сегодня слово также является и актуальным термином для изучения потоков публикаций. Потоки организованы набором сетевых информационных ресурсов и часто сопровождают информационные операции. Системой исследуются типовые тренды, свойственные  потокам публикаций в сетевых информационных ресурсах, сопровождающих информационные операции.

Теория информации

Современное информационное пространство предоставляет уникальную возможность получения разнообразной информации по выбранному вопросу при наличии соответствующего инструментария, использование  которого позволяет анализировать взаимосвязи возможных событий или событий, которые уже происходят, с информационной активностью выбранного круга источников.

Примеры сетей распространения информации, имеющих признаки информационных операций приведены на рисунке ниже. Такие шаблоны могут использоваться при распознавании образов, которые  применяются к временным рядам и соответствующим объемам публикаций.

Приведенные схемы выше можно описать согласно теории распределения энергии. Каждая новая публикация появляется изначально с нулевым значением энергии. Затем, с ней могут происходить события, аналогичные социальным сетям — like, dislike, repost, share link. Условно, эти события влияют на энергию публикации следующим образом:

  • like повышает энергию на 1;
  • dislike уменьшает на 1;
  • repost повышает на 2;
  • share link повышает на 1.

Вероятность того, что какое-то из этих событий произойдет, зависит от актуальности сообщения, интереса к информации в нём. Все это в терминах такой теории выражается величиной энергии.

За единицу времени может произойти одно из этих событий, два одновременно или ни одного. Согласно таким правилам изменения энергии увеличение энергии на 2 соответствует тому, что произошли одновременно like и repost; увеличение на 1 – произошел только repost; энергия не меняется, если был like; dislike уменьшается на 1, если не произошло ни одного из событий.

Таким образом, публикации и их источники набирают вес в медиа пространстве. Они же влияют на то, чтобы конкретной информацией поделились пользователи, которые ориентируются на значимость публикации, определяемую именно по схеме которую мы описали.

Стартовое значение «энергии» публикации, можно набрать не только за счет «горячей» темы или актуальности. За нее как раз могут отвечать искусственные агенты влияния. После того как публикация наберет некую критическую массу (трехзначные счетчики комментариев и репостов, например), общество начнет органическое распространение заложенной в сообщении информации.

Управляемая информация

Информационная операция это информационное воздействие на массовое сознание (как враждебное, так и дружеское), воздействие на информацию, доступную объекту и необходимую ему для принятия решений, а также на информационно-аналитические системы конкурента. Любая информационная операция имеет следующие этапы:

1 — фон; 2 — затишье; 3 — «артподготовка»; 4 — затишье; 5 — атака / триггер роста; 6 — пик завышенных ожиданий; 7 — потеря иллюзий; 8 — общественное осознание; 9 — производительность / фон

С другой стороны, при сборе и анализе информации возникают проблемы, когда речь идет о большом количестве данных, поиске и навигации в постоянно меняющихся информационных потоках. Стоит добавить и фактор многоязычности среди сайтов. Все это вызывает сложность использования упомянутых методов в информационно-аналитической работе.

Информационное пространство представляет собой динамическую систему из связанных по смыслу элементов (документов), образующихся в процессе своей эволюции информационные потоки.

Динамика публикации документов в информационном пространстве, в том числе, непосредственно относящиеся к информационным операциям, образуют временные ряды.

Методы анализа

Как раз к временным рядам можно применить  формальные методы анализа: статистический, фрактальный, Фурье и вейвлет. Анализ этих потоков во времени позволяет выявить тенденции, циклы, аномалии и наличие корреляций.

При определении информационных операций, можно выделить три подхода:

  • Базовые подходы, ориентированные на анализе тональности могут применяться лишь на этапах оперативного обнаружения;
  • Подходы, ориентированные на анализ шаблонов могут использоваться при стратегическом анализе, планировании. Здесь скорее важно отклонение от обычных информационных всплесков и естественных шаблонов;
  • Сетевые подходы хорошо совместимы с современными технологиями распознавания, нейронными сетями, однако не могут быть эффективными без «обучения», анализа информационных потоков за большие периоды времени.

На практике должны применяться гибридные подходы, учитывающие как машинное обучение, шаблоны, так и участие экспертов по знаниям. Поэтому для решения этих проблем в нашей системе применяются методы работы с Большими Данными (Big Data), машинное обучение, нейронные сети, текст-майнинг, а также привлекаются эксперты в исследуемых информационных областях.

Реализация методов

Attack Index – это интегральный показатель уровня информационной опасности, учитывающий множество факторов. В них входят: наличие информационной активности, активности возможных конкурентов, отклонение среднего фона, наличие информационных операций и стадий их развития, ретроспектива и динамика негативной тональности публикаций, а также степень хаотичности процессов. Кроме того, в разработке находится инструмент прогнозирования информационных событий.

Составляющие нашего решения:

  • Поиск сообщений на темы, представляющие интерес в глобальных сетях;
  • Отслеживание информационных потоков (историй), соответствующих тем, событий и процессов;
  • Определение динамики информационных потоков;
  • Построение динамики тональности публикаций;
  • Определение аномального и критического момента в динамике тематических информационных потоков;
  • Определение основных событий и объектов тематического потока информации;
  • Визуализация отношений объектов мониторинга;
  • Прогноз развития ситуации.

Изучение эмоций

Реализованная система определения тональности базируется на статистическом подходе и обучении нейронной сети. В основе статистики лежит выявление слов наиболее часто употребляемых в текстах с положительной или нейтральной тональностью.

Следует помнить, что информационное пространство всегда больше реагирует на проблемные и негативные события. Как следствие, в информационных потоках, статистически, негатив встречается чаще. Даже эксперты не всегда приходят к согласию, что может быть негативом, а что – позитивом, поэтому задача системы правильно обработать найденные текстовые массивы и представить к рассмотрению оценочные значения.

Attack Index учитывает статистику отрицательных сообщений, динамику наращивания отрицательных тональностей, так как такие тенденции свидетельствуют о потенциально опасной ситуации относительно объекта запроса.

Участие в распространении

В список источников входят ведущие новостные сайты, региональные медиа, блоги и форумы. Но важным компонентом стали также сайты с сомнительной репутацией, ведь именно с них начинаются информационные волны. Источником большинства таких волнений являются и социальные сети: от имени профиля публикуется «горячая» информация, которая затем через поддержку не самых авторитетных сайтов транслируется и доходит до новостных служб и даже телеканалов. Такие проявления также учитываются при оценке ситуации.

С помощью методов выделения данных из текстов можно сформировать сети взаимосвязей понятий. Их узлы являются ключевыми словами, именами персоналий, компаниями и т.д. Анализ этих сетей позволяет выявить явные и неявные связи между отдельными понятиями, оценить вес тех или иных понятий, уточнить критерии формирования информационного потока и увидеть взаимозависимости в исследуемых сетях.

Важно понимать наличие и силу связей между агентами влияния и источниками. В нашем сервисе реализована технология автоматизированного формирования когнитивных карт на основе моделей предметных областей. Когнитивная карта — ориентированный граф, грани которого могут быть связаны с весом (энергией, как в примере выше).

Когнитивные карты могут использоваться для создания сценариев информационной поддержки. Вершины когнитивной карты соответствуют понятиям и причинно-следственным связям. При анализе когнитивных карт узлы и ссылки оцениваются относительно выбранной концепции, после чего между этими узлами образуются согласованные цепи.

Узлы могут быть связаны между собой, если соответствующие им слова находятся рядом в тексте, принадлежат одному предложению, соединенные синтаксически или семантически.


Страница находится на стадии доработки