Журналіст 007 2.0

26 Жовтня 2011
17438
26 Жовтня 2011
19:16

Журналіст 007 2.0

17438
Представники Guardian, New York Times і Aftenposten – про роботу з масивом даних на прикладі WikiLeaks і новітні цифрові інструменти в журналістиці розслідувань
Журналіст 007 2.0

Інформація, гідна уваги спільноти (а отже - і журналістів), скрізь довкола нас. Завдяки інтернету щодня її обсяг збільшується, а час, необхідний для створення новин, зменшується.

 

Кинувши журналістам виклик, ера перенасичення цифровою інформацією створила й умови для розробки інструментів сортування, «прочісування» та обробки даних. Західні журналісти і програмісти вже їх створили і користуються ними.

 

Своїм досвітом щодо журналістики даних у журналістиці розслідування під час Global Investigative Journalism Conference 2011 ділилися представники Guardian, New York Times, Aftenposten та інших видань.

 

 

Виклики WikiLeaks

 

Питання витоку інформації та роботи з такою інформацією набуло нового вектору з розвитком інтернету. Приклад - інформаційна бомба минулого року, проект WikiLeaks.

 

Нагадаємо, наприкінці 2010 року інтернет-ресурс WikiLeaks розпочав публікацію близько 250 тисяч таємних дипломатичних документів США, що стосуються інших країн. Оприлюднене листування містило дані про окремі аспекти зовнішньої політики США. Фрагменти досьє WikiLeaks опублікувала низка провідних світових ЗМІ, зокрема New York Times, Le Monde, El Pais, Der Spiegel і The Guardian.

 

Як розповіли на конференції західні газетярі, з невеликими варіаціями їхня робота з матеріалами WikiLeaks зводилася до такої схеми: побудова баз даних за ключовими аспектами, глибинний аналіз тексту за допомогою новітніх програм автоматизованої обробки тексту, перехресне зіставлення та перевірка конкретної інформації за іншими джерелами, розробка журналістських сюжетів та представлення інформації в мультимедійній формі.

 

Перше видання, яке почало співпрацювати з засновником WikiLeaks Джуліаном Ассанжем, - газета Guardian. Проблема, з якою відразу зіткнулися працівники британської газети, - як знайти журналістські історії в величезній кількості текстів. І перше, що створює видання, - будує величезну базу даних, в якій можна здійснювати пошук за словом, фразою, періодом, назвою, за ключовими цифрами, за походженням повідомлень, класифікацією, а також за авторством. Деякі з документів мали позначки стосовно часових рамок розголошення інформації відповідно до законодавства про доступ до публічної інформації, деякі мали гриф «Не підлягає розголошенню протягом 35 років»: «Для таких журналістів-ветеранів, як я, необхідність роботи з великими масивами даних у рамках WikiLeaks - це було чимось новим», - розповідає Девід Лі, редактор відділу розслідувань The Guardian.

 

Паралельно в цей час американська газета New York Times, співпрацюючи з The Guardian і німецьким Der Spiegel, формувала групу репортерів із кожного офісу Times по всьому світу, щоб вивчати документи. За словами Енді Лерена, журналіста New York Times, форми співпраці між редакціями розвивали протягом цілого місяця.

 

«Перша партія матеріалу, яку ми отримали спочатку, була про війну в Афганістані, - каже Енді Лерен. - Ми думали, що це може бути або одноразова історія, або серія матеріалів, присвячена людям, які загинули в Афганістані. Однак більша частина цих матеріалів була підозрілою, неповною. Ми зрозуміли, що не зможемо використати багато даних. Але ми могли розказати про важливі аспекти війни, наприклад, про тіньову присутність служб безпеки».

 

Щоденні звіти про війну були неповними, тому що дуже часто їх сповіщали 20-літні солдати, які не перевіряли даних. Журналістам доводилося будь-яку інформацію перевіряти через дипломатичні канали, однак цього теж не було достатньо, тому що дані виявлялися суперечливими.

 

Як розповів редактор норвезької газети Aftenposten Ян Гуннар Фурулі, його видання отримало доступ до серверів WikiLeaks від джерела, не пов'язаного із засновником сайту Джуліаном Ассанжем (як New York Times і The Guardian). За його словами, Aftenposten тоді сформулював для себе основні принципи того, як журналісти мають поводитися зі злитою інформацією: перше - це дотримання безпеки роботи з джерелом, друге - захист інформатора, третє - крайня оперативність.

 

Бази даних за злитими матеріалами формувалися в Aftenposten відповідно до 5 напрямів: тематичні слова та імена; географічні назви і райони; теги; інституції та організації; хронологія. Крім того дані класифікувалися також за наявністю таких словосполучень, як «високий захист» (strictly protest), «демарш», (demarche), «міжнародна співпраця» (international coop). Загалом Aftenposten вдалося опублікувати більше 200 ексклюзивних матеріалів.

 

Все більшої популярності, особливо в США, набувають комп'ютерні програми автоматизованої обробки тексту, які на Заході вже стали невід'ємними інструментами в журналістиці розслідувань, зокрема і в роботі з WikiLeaks. «Апарат національної безпеки використовує різні технології з глибинного аналізу тексту вже багато років, здобування інформації, номерів телефонів. Такі програми є досить дорогими, але великі редакції вже застосовують їх... Програми класифікують імена, назви персон, компаній, кількість згадувань. Вони не заміняють вдумливого читання, але дозволяють проаналізувати документ первинно», - каже Сара Коен, професор Фонду імені Найтів в Університеті Дюка (Північна Кароліна, США).

 

 

Найпопулярніші програми глибинного аналізу тексту

 

 

 

Clear Forest Gnosis підкреслює і групує слова у статті за конкретними категоріями

 

 

Робота з даними як окрема спеціалізація

 

Показово, що у великих редакціях стало практикою створювати спеціальні відділи, які займаються базами даних.

 

У Aftenposten існує цілий IT-департамент, який спеціалізується на секретних файлах. Він працює 8 годин на добу, займає окремий поверх, потрапити на який можна тільки з перепусткою і через пароль. Ці паролі ніхто ніколи не роздруковує, не пересилає в мейлах, а якщо й пересилає, то тільки в зашифрованому вигляді. Внутрішні комп'ютери не підключено до інтернету.

 

У газеті La Nacion (Коста-Ріка) така група складається з п'яти осіб - трьох журналістів і двох комп'ютерних інженерів. «Ми прочісуємо веб 24 години на добу 7 днів на тиждень і зливаємо це в бази даних. 99% інформації, яку ми просимо надавати в різних державних структур, нам таки надають. Світ заповнений даними, 8 ексабайт у вебі, це створює шум, занадто багато даних і все менше інтелектуально обробленої інформації. Зверніть увагу, під час кризи всі ЗМІ були збитковими, а ті, хто зосередився на постачанні кастомізованих даних своїм замовникам, як Economist Inteligence, працювали, незважаючи на кризу», - каже Жанін Сеньї, журналіст La Nacion.

 

За словами Жанін, її команда безперервно збирає дані з різних джерел за такими категоріями: «Люди» (реєстрація народження, бази даних батьків, шлюбів, розлучень), «Активи» (реєстри автомобілів, яхт), «Санкції» (транспортні штрафи, адміністративні порушення), «Ліцензії» (ліцензії професійної діяльності, телекомунікаційні, охоронних агентів, ліцензії з охорони навколишнього середовища, пенсійні, ліцензія на транспортування), «Субсидії» (освітні, комунальні, торгівельні). Зазначимо, що у Коста-Ріці збір таких відомостей проводити нескладно, оскільки країни Латинської Америки є достатньо відкритими, в них є спеціальні відомства, які ведуть облік юристів, учителів та інших, тимчасом як, наприклад, у Штатах таку інформацію вважатимуть досить делікатною та анонімною.

 

Після завантаження на один сервер уся інформація очищується, фільтрується, потім обробляється, аналізується і візуалізується.

 

 

Схема роботи з базами даних в La Nacion

 

Прочісування

iMacros

Очищення і фільтрація

Google Refine

Обробка, трансформація, завантаження

Talend

Аналіз

i2(Analyst's Notebook, iBase), R (програма статистики)

Візуалізація

Google Visualization API, jQuery

 

Програмне забезпечення, яке використовує газета La Nacion при роботі з базами даних

 

Деякі програми для обробки баз даних ЗМІ можуть використовувати безкоштовно, інші - за гроші. Програма прочісування iMacros коштує близько $500, а от ціна i2 (Analyst's Notebook, iBase) сягає кількох десятків тисяч доларів. Варто зазначити, що мінусом цього програмного забезпечення для східноєвропейського журналіста є неадаптованість під кириличний шрифт.

 

Один із проектів, реалізованих газетою La Nacion на основі власної системи баз даних, присвячений кандидатам у мери. Робоча група добула базу даних засуджених, базу даних людей, яким було заборонено обіймати державні посади, і людей, які не сплачували податків. Після того вона застосувала певні інструменти, щоби профільтрувати й індексувати цю інформацію. У результаті газета знайшла 5 кандидатів, яких було засуджено за викрадення і грабування (в одного з них було сім кримінальних справ), 27 кандидатів, яким було заборонено обіймати державні посади, і багатьох претендентів на посаду мера з боргами. La Nacion створила інтерактивну карту, де розмістила списки усіх кандидатів і де читачі могли забивати в пошук по конкретному регіону, провінції і знаходити інформацію про того чи іншого претендента. «Я би сказала, це був зразок превентивної журналістики», - розповідає пані Сеньї.

 

На її думку, журналістика баз даних (data-journalism) безпосередньо випливає з суспільної користі: «Журналістика баз даних пов'язана більшою мірою з підвищенням прозорості всіх видів діяльності державних установ. Представляючи аудиторії наші бази даних, ми даємо їм можливість зрозуміти, як ми прийшли до тих чи інших рішень, готуючи наші матеріали».

 

Один із організаційних викликів для людей, які працюють із базами даних, - налагодження співпраці між журналістами і програмістами-розробниками: «У нас є і 70-річні журналісти, і 25-літні розробники, діти порівняно з попередніми. У них не тільки професії різні, але й вікові групи, покоління. Тому один із викликів - адаптація», - підсумовує Жанін.

 

 

Інтерактивність та інфографіка на десерт

 

Пошук історій, їх перевірка і встановлення достовірності - не єдине трудомістке завдання журналіста, який працює з масивами інформації. Сам по собі злитий матеріал може не викликати в читача ніякої зацікавленості, якщо знехтувати формою його подачі. За словами Девіда Лі, головна помилка репортерів, які працювали з WikiLeaks, полягала у тому, що вони шукали серед неструктурованого, сирого тексту готові журналістські історії, яких там не було: «Фактично ми отримали тільки наводки, які потім досліджували класичними журналістськими способами».

 

Редакторам довелося шукати безліч креативних підходів для подачі нудних, неяскравих дипломатичних звітів, аби читач зміг це проковтнути. «Ми розкладали матеріал відповідно до рівня цікавості глядача», - каже Девід Лі.

 

В The Guardian працював візуалізатор даних, який відповідно до ключових понять у WikiLeaks створював рухомі карти: «Наприклад, брав вибухи у визначеному регіоні і створював рухому карту. Залежно від того, кого було підірвано - цивільного, військового - будувалася певна графіка, на якій зображувалася кількість поранених, убитих. Інший підхід - по в'язнях. Якщо були фотографії в'язнів, ми робили картинки інтерактивними. Можна було натиснути на будь-яку з цих фотографій - і дізнатися ім'я, обставини ув'язнення, причини».

 

New York Times спроектувала інтерактивну карту, що показувала, які посольства виробляли найбільше депеш. Інший проект New York Times на основі WikiLeaks наочно зображував схему поставок зброї через Північну Корею.

 

 

Схема поставок зброї через Північну Корею

 

У газеті Washington Post навколо людей, які працюють із базами даних, формується ціла група співробітників із мультимедійних завдань. Таким чином штат видання включає посади цифрових журналістів, відеографа, картографа, графічного розробника, розробника баз даних, дослідника баз даних, а з командою журналістів розслідувань працює редактор цифрових інновацій.

 

Протягом двох років ця група людей у Washington Post займалася проектом про обіг нелегальної зброї у США. Він включав статті з інфографікою в друкованій версії видання, інтерактивні карти на сайті, відеоінтерв'ю (з дружиною загиблого полісмена, з підозрюваним у нелегальній торгівлі зброєю), фотогалереї. Як каже Джеймс Грімальді, менеджер проекту, інтерактивні карти дозволяли читачу стежити за використанням зброї та за тим, як вона потрапляє до нелегальних магазинів.

 

 

Клікнувши на штат на карті, можна подивитися в діалоговому віконці, кого з кандидатів у держоргани підтримувала Національна асоціація зброї і хто переміг, скільки грошей витрачалося на операції, пов'язані зі зброєю

 

Редактор цифрових інновацій Washington Post Лорін Кін протягом півроку разом із трьома журналістами працювала над проектом «Цілком секретна Америка» (Secret America), який у мультимедійній формі розповідав про всі секретні організації в США: на кого вони працювали, які їхні функції і як це все змінилося з 11 вересня 2001 року. На сайті «Цілком секретної Америки» можна вводити запитання на кшталт «Хто робить найбільше роботи?», «Які контракти даються приватним компаніям?», «Чим займається ЦРУ?», «Скільки людей наймає організація?» тощо.

 

 

Кожен сектор у райдужному колі є гіперактивним, клікаючи на нього, користувач отримує потрібну інформацію про ту чи іншу держструктуру

 

Як каже Лорін Кін, її робота полягає в тому, щоб допомогти журналістам викласти сюжет у цифровій формі: «У цифровій журналістиці діють ті ж самі стандарти, що й у традиційній журналістиці, однак значно більше інструментів. Наприклад, тільки за допомогою одного інструмента - Google-карти та Google-фотографій нам вдалося розробити цілий проект про незавершені та затримані об'єкти будівництва. Google-карта дозволяє завантажити і подивитися конкретний будівничий об'єкт у США. Дуже зручно, коли не вистачає репортерів на місцях».

 

 

Спіймай, якщо зможеш

 

Журналіст ХХІ сторіччя нічим не гірший за агента 007. Оскільки він працює з секретною інформацією, то має володіти принаймні базовими знаннями про нові цифрові інструменти в розслідувальній журналістиці, вважає американський журналіст Стів Дойг. Ідеться про відкриті джерела й недорогі рішення для збирання, фільтрації й візуалізації даних із цих джерел.

 

Основні правила від Дойга щодо поводження репортера з технікою - захистити і не втратити цінної інформації, не допустити її витоку через кібератаки, не пійматися на гачок уряду і максимально захистити своє джерело. Детальніше:

 

1. Анонімність пошуку. Приватний доступ до інтернету може становити проблему, тому що дозволяє легко відстежити, хто і який пошук здійснює в Google, оскільки людина часто вводить свої дані. Стів Дойг пропонує журналістам кілька пошуковиків, у яких неможливо відстежити запити користувача, зокрема - Ixquick.com та Anomyzer.com.

 

Ще один інструмент блогерської та журналістської анонімності - ТOR-проект. Це програмне забезпечення у вільному доступі, що дозволяє встановлювати анонімне з'єднання з мережею. Воно захищене від прослуховування, мережа забезпечує передачу даних у зашифрованому вигляді. За допомогою ТOR користувачі можуть зберігати анонімність при відвідуванні веб-сайтів, публікації матеріалів, надсиланні повідомлень. На думку Дойга, це дуже корисно в Китаї, де уряд намагається цензурувати через інтернет та браузери.

 

2. Мобільна небезпека. Мобільні телефони - це фактично радіо, яке можна прослухати і локалізувати за чіпом JPS. «Як кажуть норвезькі спецслужби, вони можуть вставити маленький мікрофон у телефон лише за декілька секунд, скажімо, під час вашого проходження в аеропорту, тому норвезькі агенти рекомендували - не беріть із собою телефонів на таємну зустріч», - зазначає Дойг. Він вважає доцільним в окремих випадках використовувати одноразові недорогі стільникові пристрої.

 

Як розповідає журналіст, у Штатах за $100 можна придбати комерційне програмне забезпечення Cell Spy, яке дозволяє прослуховувати чужі телефонні дзвінки, читати смс-повідомлення. Cell Spy було створено для ревнивих чоловіків та дружин, однак ним почали послуговуватися й ті, хто працює з інформацією. «Якщо така програма у вільному доступі, можна тільки здогадуватися, якими інструментами володіють спецслужби», - зауважує Дойг.

 

3. Шифрування. Секретну інформацію краще шифрувати, й одним із інструментів цього є безкоштовна програма ZPhone, яка працює з різними протоколами голосових сигналів, таких як Google Talk, Magic Jack. Крім того є програми Public-key cryptography, TrueCrypt.org, GnuPG 2.0. Шифрування повідомлень також можливе в поштових сервісах MS Outlook, Gmail, Enigmail, однак недолік шифрування в пошті - перетворення інформації на набір цифр і знаків, «які будь-якому перехожому можуть показати, що у вас є секретна інформація».

 

4. Стенографія. За допомогою стенографії можна сховати в простому тексті, картинці аудіо- та відеофайлі таємну інформацію. В цьому секторі журналістам рекомендується використовувати Open Poof. Ще одна програма - Spammimic.com - створює повідомлення, які виглядають як спам, однак після пересилання їх можна розшифрувати: на другому кінці людина копіює повідомлення в Spammimic.com і отримує потрібний зміст.

 

4. Комп'ютерна гігієна. Тримайте свій комп'ютер чистим. Просто видалити документ недостатньо. Як розповідає Стів Дойг, дуже часто журналістів було засуджено за ту інформацію, яку вони вважали видаленою з комп'ютера. Один із прикладів програмного забезпечення, яке видалить усе і перепише заново, - Windows Wacher.

 

5. Вотермаркерування. Це система невидимої розмітки документів, яка зазвичай застосовується у компаніях серед високопоставлених осіб. «Наприклад, членам компанії роздають документи, кожен із яких позначено невидимим знаком. Якщо копію було комусь віддано, можна простежити, кому належав оригінал, щоби з'ясувати, хто зливає інформацію». Якщо ви боїтеся, що документ може бути мічений, треба його перенабрати, просто ксероксу недостатньо.

 

Ілюстрація - xronika.az

Команда «Детектора медіа» понад 20 років виконує роль watchdog'a українських медіа. Ми аналізуємо якість контенту і спонукаємо медіагравців дотримуватися професійних та етичних стандартів. Щоб інформація, яку отримуєте ви, була правдивою та повною.

До 22-річчя з дня народження видання ми відновлюємо нашу Спільноту! Це коло активних людей, які хочуть та можуть фінансово підтримати наше видання, долучитися до генерування спільних ідей та отримувати більше ексклюзивної інформації про стан справ в українських медіа.

Мабуть, ще ніколи якісна журналістика не була такою важливою, як сьогодні.
У зв'язку зі зміною назви громадської організації «Телекритика» на «Детектор медіа» в 2016 році, в архівних матеріалах сайтів, видавцем яких є організація, назва також змінена
* Знайшовши помилку, виділіть її та натисніть Ctrl+Enter.
17438
Коментарі
0
оновити
Код:
Ім'я:
Текст:
Долучайтеся до Спільноти «Детектора медіа»!
Ми прагнемо об’єднати тих, хто вміє критично мислити та прагне змінювати український медіапростір на краще. Разом ми сильніші!
Спільнота ДМ
Використовуючи наш сайт ви даєте нам згоду на використання файлів cookie на вашому пристрої.
Даю згоду