Методологія аналізу українського сегменту соціальних мереж та месенджерів
Методологія аналізу українського сегменту соціальних мереж та месенджерів
Read in English here.
Із 2020 року «Детектор медіа» розпочав систематичний аналіз наративів і зображень у соціальних мережах Facebook, Twitter, на відеоплатформі YouTube, у месенджері Telegram тощо. Це методологія, за якою ми аналізуємо контент цих соціальних мереж. Вона може бути доповнена підходами до аналізу інших соціальних мереж.
Звідки ми беремо дані?
«Детектор медіа» поважає принципи приватності та безпеки персональних даних у соціальних мережах, тому для аналізу бере дані, що є публічними, тобто такими, що користувач дозволив збирати та обробляти. Кожна соціальна мережа, яку ми аналізуємо (фейсбук, твітер, телеграм, ютуб) має свої політики щодо методів отримання, оброблення та зберігання даних. «Детектор медіа» врахував політику кожної мережі, а також керується законодавством Європейського Союзу щодо захисту персональних даних — GDPR. Провайдером даних є самі соціальні мережі або сертифіковані ними компанії.
Під українським сегментом соціальних мереж фейсбука, твітера і месенджера телеграма маємо на увазі дописи профілів, сторінок, груп та каналів, які розташовані в Україні або вказали своїм місцем розташування Україну.
Твітер
Типи даних, які отримує «Детектор медіа»:
- текст публічних дописів та відповідей на них;
- інформацію про час публікації дописів та відповідей;
- кількість вподобань та поширень дописів та відповідей;
- назви сторінок — авторів дописів та відповідей;
- кількість та перелік підписників та підписок сторінок.
Фейсбук
Типи даних, які отримує «Детектор медіа»:
- текст публічних дописів та коментарів до них;
- інформацію про час публікації дописів та коментарів;
- кількість і тип взаємодії з дописом (вподобання, поширення, перехід за посиланням);
- назви груп та сторінок — авторів дописів та коментарів;
- інформацію про відкриті групи (дата створення, чи була змінена сторінка, звідки вона адмініструється);
- кількість та перелік підписників.
Телеграм
Типи даних, які отримує «Детектор медіа»:
- текст дописів телеграм-каналів та коментарів до них;
- інформацію про час публікації дописів та коментарів;
- інформацію про телеграм-канали (дата створення, кількість підписників та приналежність до країни);
- інформацію про поширення допису іншим телеграм-каналом та згадку іншого телеграм-каналу.
Ютуб
Типи даних, які отримує «Детектор медіа»:
- автозгенеровані субтитри відео;
- інформацію про відео (дата створення, назва, опис, кількість підписників, кількість переглядів, кількість вподобань);
- інформацію про ютуб-канали (дата створення, кількість підписників, кількість завантажених відео, кількість переглядів).
Як ми опрацьовуємо дані?
«Детектор медіа» аналізує текстові й кількісні дані за допомогою бібліотек для статистичного аналізу, обробки природної мови й машинного навчання на основі мови програмування Python. Детально про типи аналізу:
- аналіз н-грам: автоматизована ідентифікація й збір найпопулярніших слів і фраз у текстах;
- аналіз тональності тексту — автоматизоване визначення позитивної, негативної чи нейтральної тональності допису;
- моделювання тем — автоматичне визначення тем, що містяться в дописах. Моделювання тем дає можливість отримати загальну інформацію про зміст корпусу документів. Воно працює на основі припущення, що документи складаються з низки тем, а теми — зі слів / словосполучень, які часто зустрічаються поруч. Оскільки алгоритм не передбачає створення назв для тем, аналітики роблять це вручну після генерації;
- розпізнавання іменних сутностей полягає у виокремленні власних імен (людей, організацій та локацій) із текстів. На першому етапі алгоритм автоматично знаходить згадування власних назв, категоризує їх та, якщо це можливо, визначає тональність (ставлення автора допису до іменної сутності). На другому етапі аналітики вручну доповнюють словник власних назв, аби надалі алгоритм міг їх автоматично «нормалізувати» (тобто визначити, що, наприклад, «СБУ» та «Служба безпеки України» — одна й та сама сутність);
- аналіз взаємозв'язків — побудова мережі взаємозв’язків між користувачами й дописами в соціальних медіа. Дає змогу визначити групи користувачів, можливі мережі ботів тощо.
Загальний алгоритм аналізу виглядає так: спершу масив даних обробляється за допомогою комп’ютеризованих способів, які допомагають узагальнити великі масиви даних. Це допомагає визначити тенденції, закономірності та кореляції, щоб далі аналітик зміг прицільно дослідити конкретні аспекти, релевантні до предмету дослідження.
Як ми визначаємо ворожі інформаційні впливи в соціальних мережах?
Підхід перший. Шляхом виявлення активності нелюдської координованої поведінки, тобто ботів, що просувають співзвучні повідомлення.
Підхід другий. Шляхом встановлення взаємозв’язків між користувачами, групами та каналами.
Підхід третій. Шляхом маркування джерел. До прикладу, СБУ опублікувала список телеграм-каналів, що адмініструються Головним управлінням Генерального штабу Збройних сил Росії.
Підхід четвертий. Шляхом перевірки тверджень на правдивість.
Підхід п’ятий. Шляхом порівняння повідомлення на співзвучність із дезінформаційними наративами кремлівської пропаганди.
Такі підходи не виключають один одного, а навпаки — доповнюють. Поєднання підходів допомагає ефективніше визначати й аргументувати факт ворожих інформаційних впливів на український сегмент соціальних мереж.