Технології


У будь-яких рішеннях в галузі кібернетичної безпеки, зокрема при створенні систем моніторингу інформаційного простору, необхідним є наукове обґрунтування застосування технологій та рішень. Не є виключеннями і системи моніторингу відкритих джерел, у тому числі веб-сайтів та соціальних мереж. Сервіс моніторингу, прогнозування та автоматизованого визначення інформаційних загроз attackindex.com створила команда, яка складається з представників технічних та комп’ютерних наук, прикладної математики, медіа, соціології, ІТ і інформаційної безпеки. Саме тому усі сучасні наукові досягнення, у першу чергу власні, отримують швидку імплементацію до сервісу Атак Індекс.

Штучний інтелект це стек (сукупність) технологій, що включають машинне навчання, нейронні мережі, розпізнавання образів. Елементи цих технологій застосовуються в Атак Індексі. Зокрема:
• Машинне навчання – тональність повідомлень, рейтингування джерел, прогнозування розвитку інформаційних динамік;
• Кластерний аналіз – автоматизоване групування текстових повідомлень, виявлення сюжетів, формування сюжетних ланцюжків;
• Комп’ютерна лінгвістика – виявлення сталих словосполучень та наративів;
• Формування, кластеризація та візуалізація семантичних мереж – визначення зв’язків та вузлів, розбудова когнітивних мап;
• Кореляційний і вейвлет аналіз – виявлення інформаційних операцій.

Завдяки застосуванню наведених технологій Атак Індекс дозволяє фіксувати та відстежувати інформаційні процеси, формує систему аналітичних показників, визначає стабільність інформаційних ситуацій та прогнозує їх розвиток. Автоматизований звіт Атак Індексу зберігає час та підвищує ефективність роботи аналітиків, зокрема – у формуванні сюжетів щодо інформаційних тем досліджень задля розуміння контексту та трендів на великих проміжках часу. Бази даних Атак Індексу доступні для обробки будь яких запитів на великих часових термінах і дозволяють отримувати інформаційні динаміки – тобто кількості знайдених згадувань ключових слів запиту на кожну дату запиту.

За допомогою стандартних можливостей офісних пакетів статистичні ряди, зокрема інформаційні динаміки, можуть бути оброблені для пошуку взаємозв’язків між ними. Дослідження взаємозв’язків виконується за допомогою розрахунків коефіцієнтів кореляції для однакових часових інтервалів, також здійснюються розрахунки коефіцієнтів кореляцій в умовах зсуву одного відносно другого.

Великі дані

Тільки в 2014 році Google проіндексувала 60 трильйонів документів в інтернеті, а c 2016 з 2025 рік IDC прогнозує десятикратне зростання кількості даних, до 163 зеттабайт. За прогнозами компанії Cisco в 2021 році в секунду буде передаватися більше 100 000 ГБ даних. У 2016 ця цифра становила майже 27 000 ГБ в секунду.

У разі великої кількості інформаційних потоків, які утворюються окремими тематичними інформаційними потоками, необхідно враховувати динаміку кожного окремо. У разі вивчення загального інформаційного потоку часто спостерігається «перетікання» публікацій з одних, які втрачають актуальність, в інші.

Загальна ж тенденція змін в досліджуваній низці подій називається трендом. Вельми популярне сьогодні слово також є і актуальним терміном для вивчення потоків публікацій. Потоки організовані набором мережевих інформаційних ресурсів і часто супроводжують інформаційні операції. Системою досліджуються типові тренди, властиві потокам публікацій в мережевих інформаційних ресурсах, які супроводжують інформаційні операції.

Теорія інформації

Сучасний інформаційний простір надає унікальну можливість отримання різноманітної інформації по обраному питанню при наявності відповідного інструментарію, використання якого дозволяє аналізувати взаємозв’язку можливих подій або подій, які вже відбуваються, з інформаційної активністю обраного кола джерел.

Приклади мереж поширення інформації, що мають ознаки інформаційних операцій наведені на малюнку нижче. Такі шаблони можуть використовуватися при розпізнаванні образів, які застосовуються до тимчасових рядів і відповідним обсягами публікацій.

Наведені схеми можна описати відповідно до теорії розподілу енергії. Кожна нова публікація з’являється спочатку з нульовим значенням енергії. Потім, з нею можуть відбуватися події, аналогічні тим, що спостерігаються в соціальних мережах – like, dislike, repost, share link. Умовно, ці події впливають на енергію публікації наступним чином:

  • like підвищує енергію на 1;
  • dislike зменшує на 1;
  • repost підвищує на 2;
  • share link підвищує на 1

Імовірність того, що якась із цих подій відбудеться, залежить від актуальності повідомлення, інтересу до інформації в ньому. Все це в термінах наведеної теорії виражається величиною енергії.

За одиницю часу може статися одна з цих подій, дві одночасно або не статися жодна. Згідно з такими правилами зміни енергії збільшення енергії на 2 відповідатиме тому, що відбулися одночасно like і repost; збільшення на 1 – стався тільки repost; енергія не змінюється, якщо був like; dislike зменшується на 1, якщо не відбулася жодна з подій.

Таким чином, публікації і їх джерела набирають вагу в медіа просторі. Вони ж впливають на те, щоб конкретною інформацією поділилися користувачі, які орієнтуються на значимість публікації, яка визначається за схемою яку ми описали.

Стартове значення «енергії» публікації, можна набрати не лише за рахунок «гарячої» теми або актуальності. За неї якраз можуть відповідати штучні агенти впливу. Після того як публікація набере певну критичну масу (тризначні лічильники коментарів і репосту, наприклад), суспільство почне органічне поширення закладеної в повідомленні інформації.

Керована інформація

Інформаційна операція – це інформаційний вплив на масову свідомість (як вороже, так і дружнє), вплив на інформацію, доступну об’єкту і необхідну йому для прийняття рішень, а також на інформаційно-аналітичні системи конкурента. Будь-яка інформаційна операція має такі етапи:

1 – фон; 2 – затишшя; 3 – «артпідготовка»; 4 – затишшя; 5 – атака / тригер зростання; 6 – пік завищених очікувань; 7 – втрата ілюзій; 8 – суспільне усвідомлення; 9 – продуктивність / фон

З іншого боку, при зборі та аналізі інформації виникають проблеми, коли мова йде про велику кількість даних, пошуку та навігації в постійно мінливих інформаційних потоках. Варто додати і фактор багатомовності серед сайтів. Все це викликає складність використання згаданих методів в інформаційно-аналітичній роботі.

Інформаційний простір являє собою динамічну систему з пов’язаних за змістом елементів (документів), що утворюються в процесі своєї еволюції інформаційні потоки.

Динаміка публікації документів в інформаційному просторі, в тому числі, ті що безпосередньо пов’язані із інформаційними операціями, утворюють тимчасові ряди.

Методи аналізу

Якраз до часових рядів можна застосувати формальні методи аналізу: статистичний, фрактальний, Фур’є і вейвлет. Аналіз цих потоків у часі дозволяє виявити тенденції, цикли, аномалії і наявність кореляцій.

При визначенні інформаційних операцій, можна виділити три підходи:

  • Базові підходи, орієнтовані на аналіз тональності. Вони можуть застосовуватися лише на етапах оперативного виявлення;
  • Підходи, орієнтовані на аналіз шаблонів можуть використовуватися при стратегічному аналізі і плануванні. Тут скоріше важливо враховувати відхилення від звичайних інформаційних сплесків і природних шаблонів;
  • Мережеві підходи добре сумісні з сучасними технологіями розпізнавання, нейронними мережами, проте не можуть бути ефективними без «навчання» аналізу інформаційних потоків за великі періоди часу.

На практиці повинні застосовуватися гібридні підходи, що враховують як машинне навчання, ряд шаблонів, так і участь експертів за знаннями. Тому для вирішення цих проблем в нашій системі застосовуються методи роботи з Великими Даними (Big Data), машинне навчання, нейронні мережі, текст-майнінг, а також залучаються експерти в досліджуваних інформаційних областях.

Реалізація методів

Attack Index – це інтегральний показник рівня інформаційної небезпеки, що враховує безліч факторів. У них входять: наявність інформаційної активності, активності можливих конкурентів, відхилення середнього фону, наявність інформаційних операцій і стадій їх розвитку, ретроспектива і динаміка негативної тональності публікацій, а також ступінь хаотичності процесів. Крім того, в розробці знаходиться інструмент прогнозування інформаційних подій.

Складові нашого рішення:

    • Пошук повідомлень на теми, що представляють інтерес в глобальних мережах;
    • Відстеження інформаційних потоків (історій), відповідних тем, подій і процесів;
    • Визначення динаміки інформаційних потоків;
    • Побудова динаміки тональності публікацій;
    • Визначення аномального і критичного в заданий момент у динаміці тематичних інформаційних потоків;
  • Визначення основних подій і об’єктів тематичного потоку інформації;
  • Візуалізація відносин об’єктів моніторингу;
  • Прогноз розвитку ситуації.

Дослідження тональності

Реалізована система визначення тональності базується на статистичному підході і навчанні нейронної мережі. В основі статистики лежить виявлення слів найбільш часто вживаних в текстах з позитивною або нейтральною тональністю.

Слід пам’ятати, що інформаційний простір завжди більш активно реагує на проблеми і негативні події. Як наслідок, в інформаційних потоках, статистично, негатив зустрічається частіше. Навіть експерти не можуть дійти згоди, що може бути негативом, а що – позитивом, тому завдання системи правильно обробити знайдені текстові масиви і представити на розгляд оціночні значення.

Attack Index враховує статистику негативних повідомлень, динаміку нарощування негативних тональностей, так як такі тенденції свідчать про потенційно небезпечну ситуацію для об’єкта запиту.

Участь в поширенні

У список джерел входять провідні новинні сайти, регіональні медіа, блоги і форуми. Але важливим компонентом стали також сайти з сумнівною репутацією, адже саме з них починаються інформаційні хвилі. Джерелом більшості таких хвилювань є і соціальні мережі: від імені профілю публікується «гаряча» інформація, яка потім через підтримку не найавторитетніших сайтів транслюється і доходить до служб новин і навіть телеканалів. Такі прояви також враховуються при оцінці ситуації.

За допомогою методів виділення даних з текстів можна сформувати мережі взаємозв’язків понять. Їх вузли є ключовими словами, іменами персоналій, компаніями і т.д. Аналіз цих мереж дозволяє виявити явні і неявні зв’язки між окремими поняттями, оцінити вагу тих чи інших понять, уточнити критерії формування інформаційного потоку і побачити взаємозалежності в досліджуваних мережах.

Важливо розуміти наявність і силу зв’язків між агентами впливу і джерелами. У нашому сервісі реалізована технологія автоматизованого формування когнітивних карт на основі моделей предметних областей. Когнітивна карта – орієнтований граф, межі якого можуть бути пов’язані з вагою (енергією, як в прикладі що ми описували раніше).

Когнітивні карти можуть використовуватися для створення сценаріїв інформаційної підтримки. Вершини когнітивної карти відповідають поняттям і причинно-наслідкових зв’язків. При аналізі когнітивних карт вузли та посилання оцінюються щодо обраної концепції, після чого між цими вузлами утворюються узгоджені ланцюга.

Вузли можуть бути пов’язані між собою, якщо відповідні їм слова знаходяться поруч у тексті, належать одному реченню, з’єднані синтаксично або семантично.

Наукова література, яка описує теорію та практики застосовані при створенні сервісу Attack Index.

1.Ланде Д.В. Шнурко-Табакова Е.В. “ПЕРСПЕКТИВИ АВТОМАТИЗАЦІЇ АНАЛІТИЧНОЇ ДІЯЛЬНОСТІ У СФЕРІ НАЦІОНАЛЬНОЇ ОБОРОНИ І БЕЗПЕКИ”

2.Publication date. 2020/11/26. Conference Науково-практична конференція: “Забезпечення інформаційної безпеки держави у воєнній сфері: проблеми та шляхи їх вирішення”.  Pages 89-90. Publisher. НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ ОБОРОНИ УКРАЇНИ імені Івана Черняховського

3.Ланде Д.В. Шнурко-Табакова Е.В. “МЕТОДИ І ЗАСОБИ АНАЛІТИЧНОЇ ПІДТРИМКИ ПРОТИДІЇ ГІБРИДНИМ ЗАГРОЗАМ ДЕРЖАВИ”

4.Publication date 2019/10/24. Conference. “ПРОБЛЕМИ ТЕОРІЇ ТА ПРАКТИКИ ІНФОРМАЦІЙНОГО ПРОТИБОРСТВА В УМОВАХ ВЕДЕННЯ ГІБРИДНИХ ВІЙН”. Pages 13-15. Publisher М-во оборони України, Житомир. військ. ін-т імені С. П. Корольова

5.Dmytro Lande, Ellina Shnurko-Tabakova. OSINT as a part of cyber defense system // Theoretical and Applied Cybersecurity, 2019. – N. 1. – pp. 103-108.

6.Горбулін В.П., Додонов О.Г., Ланде Д.В. “Інформаційні операції та безпека суспільства: загрози, протидія, моделювання: монографія”. Київ : Інтертехнологія, 2009. 164 с.

7.Dmytro Lande, Minglei Fu, Wen Guo, IrynaBalagura, Ivan Gorbov & Hongbo Yang. Link prediction of scientific collaboration networks based on informationretrieval // World Wide Web : Internet and Web Information Systems. – N 23, pp. 2239-2257(2020). DOI:doi.org/10.1007/s11280-019-00768-9. ISSN: 1573-1413, 1386-145X.

8.Dmytro Lande, Oleh Dmytrenko, Oksana Radziievska. Determining the Directions of Links in Undirected Networks of Terms // Selected Papers of the XIX International Scientific and Practical Conference “Information Technologies and Security” (ITS 2019). CEUR Workshop Proceedings (ceur-ws.org). – Vol-2577. – pp 132-145 ISSN 1613-0073.

9.Minglei Fu, Jun Fenga, Dmytro Lande, Oleh Dmytrenk, Dmytro Mankob, Ryhor Prakapovich. Dynamic model with super spreaders and lurker users for preferential information propagation analysis // (2020) Physica A: Statistical Mechanics and its Applications.Volume 561, 1 January 2021, 125266, DOI: doi.org/10.1016/j.physa.2020.125266.


Сторінка знаходиться на стадії доопрацювання