«Штучний інтелект збільшує потужності редакції в десятки разів»

«Штучний інтелект збільшує потужності редакції в десятки разів»

28 Липня 2021
3460
28 Липня 2021
09:04

«Штучний інтелект збільшує потужності редакції в десятки разів»

3460
Керівник напряму журналістики даних Texty.org.ua Анатолій Бондаренко розповідає, чому штучний інтелект обмежений і як він розширює межі можливого для нас.
«Штучний інтелект збільшує потужності редакції в десятки разів»
«Штучний інтелект збільшує потужності редакції в десятки разів»

7 липня 2021 року на ютуб-каналі «Дедлайн» відбувся марафон лекцій Ukraine Journalism AI Day про застосування штучного інтелекту в медіа. Цей проєкт — ініціатива керівника Центру журналістики Київської школи економіки Андрія Яніцького, який виграв грант House Of Europe. «Детектор медіа» занотував головне й найцікавіше, що було сказано під час марафону про штучний інтелект у медіа. Починаємо публікацію адаптованих текстів лекцій марафону з виступу Анатолія Бондаренка, керівника напряму журналістики даних видання Texty.org.ua. Слайди можна переглянути тут.

Українське видання Texty.org.ua робить проєкти, засновані на даних, і для цього використовує можливості штучного інтелекту. Наприклад, журналісти застосували нейронні моделі, щоб визначати кількість людей на акціях, виявити недоброчесні соціологічні компанії, проаналізувати голосування кожного депутата в Верховній Раді, знайти всі місця незаконного видобутку бурштину в українському Поліссі. А за проєкт із вивчення російської пропаганди, для якого збирали маніпулятивні новини про Україну, видання навіть посіло перше місце в авторитетному конкурсі журналістики даних Sigma Awards.

Що таке штучний інтелект

Коректніше означення — обмежений штучний інтелект. Обмежений тому, що він поки що не може пропонувати загальні рішення та відповіді на ті питання, які можуть розв’язувати люди. Він недостатньо гнучкий. Тому й називається не просто штучним інтелектом, а обмеженим або вузьким штучним інтелектом.

Обмежений штучний інтелект складається з декількох частин, одна з яких — машинне навчання. Це набір методів та алгоритмів, які дозволяють тренувати моделі на основі даних. Один із підрозділів машинного навчання — це так зване глибоке навчання. За останні роки глибоке навчання вийшло на рівень розв’язання задач, схожий на рівень людини. А в деяких випадках — навіть на рівень, що перевершує рівень людини.

Наприклад, завдяки глибокому навчанню комп'ютер уперше виграв у чемпіона світу з го — гри, яка вважається найскладнішою.

Отже, обмежений штучний інтелект — це галузь, що поєднує комп'ютерні науки, набори даних та потужні обчислення, які дозволяють розв’язати ту чи іншу проблему.

Чим це відрізняється від попереднього підходу розв’язання задач за допомогою комп'ютерів?

У звичайному програмуванні ми беремо початковий набір даних і пишемо програму, яка за визначеними правилами взаємодіє з даними.

Підхід глибокого навчання інший — тут ми беремо багато даних і вчимо модель знаходити правила в цих даних. Це більш спеціалізований підхід, який став можливим завдяки тому, що соціальні мережі, торговельні майданчики (наприклад, Amazon), Вікіпедія, музичні сервіси продукують дуже велику кількість даних і моделі можна на них тренувати. Ще десять років тому такої кількості даних просто не було.

Також на революцію машинного навчання вплинув розвиток комп'ютерних ігор, а саме відеокарт. Вони паралельно обчислюють дуже багато операцій, і на цих даних зручно тренувати вже складніші моделі.

Є припущення, що обмежений штучний інтелект є головним двигуном наступної індустріальної чи постіндустріальної революції. І країни, які претендують на глобальне лідерство, ставляться до його розвитку так само серйозно, як колись ставились до розвитку атомної програми.

Від розвитку цих технологій залежить, хто буде глобальним лідером у найближчі 5–10 років. Зараз лідери — це Сполучені Штати Америки та Китай, який намагається догнати (й перегнати) США. Англомовний та китайськомовний сегменти інтернету продукують найбільшу кількість даних, і в цих двох країнах є найбільше комп'ютерних потужностей, щоби працювати з цими даними.

Що можуть робити складні моделі

У 2012 році завдяки глибокому навчанню комп'ютер уперше наблизився до розуміння зображення, яке є в людини. Коли ми показуємо комп’ютеру зображення, він виділяє та класифікує об'єкти на ньому — тварин, людей, рослини. Зараз комп'ютери вже краще за людину можуть класифікувати мільйон зображень і визначити, що саме зображене.

Такі машинні моделі множать потужності, збільшують їх у багато-багато разів. Наприклад, такі маленькі колективи, як колектив «Текстів», не зробили би подібного обсягу роботи самотужки — тільки на проєкт про видобуток бурштину могли би піти роки й роки роботи. Натомість штучний інтелект проаналізував понад 450 тисяч супутникових зображень для проєкту за два тижні.

У 2018 році почалася революція в інших галузях, уже не в обробці зображень, а в обробці тексту, натуральної мови. На сьогодні обробка натуральної мови комп’ютером починає наближатись до того, як мову обробляють люди. Завдяки розвитку цих двох напрямків — обробки зображень та натуральної мови — багато західних редакцій починають використовувати обмежений штучний інтелект у повсякденній роботі.

Велика кількість контенту, наприклад, у Бі-бі-сі, Reuters чи Bloomberg уже зараз генерується автоматично або напівавтоматично. Йдеться про автоматичні подкасти, коли з тексту матеріалу без участі людини генерується текст начитки; про автоматичне генерування новин про спорт, погоду, фінансову звітність компаній. У деяких сферах штучний інтелект збільшує потужність редакції в десятки разів.

Як тренуються мовні моделі

Береться великий шматок тексту, наприклад, з української Вікіпедії, попередньо написаній програмі мовної моделі дають перші п'ять — десять слів із речення і пропонують вгадати наступне слово. Якщо модель помиляється, її виправляють, змінюють параметри й далі перебирають весь текст. Що більший текст, то кращою буде модель.

Після такого інтенсивного навчання мовна модель має велику кількість нейронів — в останніх моделях це кілька мільярдів нейронів — і починає щось розуміти про мову, в деякі моменти навіть більше, ніж конкретна людина.

Для української мови та інших мов, для яких є менша кількість текстів, на основі яких можна тренувати моделі, останнім часом є багато досягнень.

Декілька класичних задач із обробки мови можна вважати розв’язаними: аналіз сентиментів, тобто тональності тексту (позитивної/негативної); модель «сутність-зв'язок», за допомогою якої ми можемо отримати базу даних з усіх людей, місць і організацій, які згадуються в тексті.

Хороша новина для журналістів: уже майже готові глибокі комп'ютерні нейронні мережі, які можуть транскрибувати аудіозаписи в текст — і для української мови також.

Марафон Ukraine Journalism AI Day підтримав Європейський Союз за програмою «Дім Європи».

 

Команда «Детектора медіа» понад 20 років виконує роль watchdog'a українських медіа. Ми аналізуємо якість контенту і спонукаємо медіагравців дотримуватися професійних та етичних стандартів. Щоб інформація, яку отримуєте ви, була правдивою та повною.

До 22-річчя з дня народження видання ми відновлюємо нашу Спільноту! Це коло активних людей, які хочуть та можуть фінансово підтримати наше видання, долучитися до генерування спільних ідей та отримувати більше ексклюзивної інформації про стан справ в українських медіа.

Мабуть, ще ніколи якісна журналістика не була такою важливою, як сьогодні.
* Знайшовши помилку, виділіть її та натисніть Ctrl+Enter.
3460
Коментарі
0
оновити
Код:
Ім'я:
Текст:
Долучайтеся до Спільноти «Детектора медіа»!
Ми прагнемо об’єднати тих, хто вміє критично мислити та прагне змінювати український медіапростір на краще. Разом ми сильніші!
Спільнота ДМ
Використовуючи наш сайт ви даєте нам згоду на використання файлів cookie на вашому пристрої.
Даю згоду