Google відкриває цифрове вікно для словесного скарбу двох століть

Без великої помпи Google відкрила велетенську базу даних, зібраних із майже 5200 тисяч оцифрованих книжок, доступних для безкоштовного стягнення й он-лайн-пошуку, створивши новий ландшафт можливостей для досліджень і освіти в галузі гуманітарних наук.

Цифрове сховище, яке складається зі слів і коротких фраз, а також щорічного підрахунку частоти їх появи, вперше стало набором даних такого масштабу з інструментами для пошуку, доступним для аспірантів, учнів середніх шкіл і всіх, хто любить проводити час перед невеликим екраном. Воно складається з 500 мільярдів слів, що містяться в книгах, виданих між 1500 і 2008 роком англійською, французькою, іспанською, німецькою, китайською та російською мовами.

Сховище призначене для наукової аудиторії, але прості он-лайн-інструменти дозволяють будь-кому з комп’ютером набрати рядок до п’яти слів і подивитися діаграму, що репрезентує вживання фрази протягом тривалого періоду – розвага , що скоро може так само садити на голку залежності як садить гра Angry Birds [«Злі птахи» - аркадна гра під i-pod’и].

Якщо ви наберете «women», то порівняно з «men» слово рідко згадують аж до початку 1970-х років, коли утвердився фемінізм. Лінії перетинають аж близько 1986 року.

Ви також можете дізнатися, що Міккі Маус і Мерилін Монро не здобули стільки уваги у книжках, як Джиммі Картер; порівняйте, скільки посилань у літературі англійською мовою на «площу Тяньаньмень» після 1989 року, а скільки в літературі китайською; або ж простежте розширення вживання «grilling» [грилювання] з кінця 1990-х, поки воно не випередило «roasting» [запікання] і «frying» [смаження] 2004 року.

«Мета полягає в тому, щоб дати 8-річному змогу переглядати культурні тенденції протягом усієї історії, зафіксованої у книжках», – каже Ерец Ліберман Ейден, молодший науковий співробітник Товариства стипендіатів у Гарвардському університеті. Ліберман Ейден і Жан-Батист Мішель, стипендіат Гарвардського університету, збирали дані з Google й очолили науково-дослідний проект, який має продемонструвати, як величезні цифрові бази даних можуть змінити наше розуміння мови, культури й обміну ідеями.

Їхнє дослідження, яке опублікують у журналі Science у п’ятницю, пропонує звабливий смак багатого фуршету можливостей дослідження, тепер відкритим для професорів літератури, історії й інших вільних мистецтв, які, можливо, раніше уникали кількісного аналізу. Наука робить незвичайний крок і відкриває он-лайн-доступ до паперових праць тим, хто не готовий до цього.

«Ми хотіли показати, що можливо в разі застосування дуже високоточного аналізу даних до галузі гуманітарних наук», – сказав Ліберман Ейден, сферою інтересів якого є прикладна математика та геноміка. Сам він назвав свій метод «культуромікою».

Набір даних доступний для стягування, і користувачі можуть створювати власні інструменти пошуку.

Працюючи з набором даних, зокрема зі сфери літератури на івриті, датованим від 1800 року, дослідники виміряли тривалість слави: письмові згадки про відомих осіб у середині ХХ століття зникали удвічі швидше, ніж на початку ХІХ ст. «У майбутньому всі будуть відомими протягом 7,5 хвилини», – пишуть вони.

Досліджуючи винаходи, вони дійшли висновку, що технологічним інноваціям у середньому треба було 66 років, щоб прижитися в культурі на початку 1800-х і лише 27 років у 1880-1920-х рр.

Вони відстежили, як розвивалися неправильні англійські дієслова, до яких не треба було додавати «ed» у кінці слова, щоб утворити минулий час («learnt»), аж поки не почали відповідати загальному шаблону («learned»). Вони вважають, що за останні 50 років англійський лексикон зріс на 70%, до понад мільйона слів, і продемонстрували, як можна швидше оновлювати словники, виявляючи нові популярні та застарілі слова.

Стівен Пінкер, лінгвіст із Гарварду, який працював над розділом статті в Science про еволюцію мови, вивчає зміни у граматиці та формах минулого часу протягом 20 років.

«Коли я побачив у них цю базу даних, я загорівся ентузіазмом, – сказав він. – Існує так багато невігластва. Ми могли тільки спекулювати про те, що могло статися в мові».

Інформація про зміни форм дієслова «робить результати переконливішими і повнішими», додає Пінкер: «Те, про що ми розповідаємо в цій праці, є тільки початком».

Незважаючи на частий опір кількісному аналізу в деяких розділах гуманітарних наук, Пінкер зазначив, що впевнений: використання цього та подібних інструментів «стане повсюдним».

Реакції вчених-гуманітаріїв, які переглянули статтю, були стриманішими. «Загалом, дуже добре мати такі інструменти», – сказав Луїс Мененд, професор англійської мови в Гарвардському університеті. Але він попередив, що у сфері культурної історії «очевидно, що деякі з претензій трохи перебільшені». Він також стурбований, що серед 13 авторів статті не було жодного гуманітарія.

«Серед них не було навіть історика книжки», – зауважив Мененд.

Алан Брінклі, колишній проректор Колумбійського університету і професор американської історії, сказав, що зарано говорити, який вплив матиме пошук за словами і фразами. «Я можу уявити безліч цікавих способів застосування цього експерименту, але я просто не знаю достатньо про їх статистичну методологію», – сказав він.

У відповідь на тривоги гуманітаріїв, що сутність їхнього мистецтва полягає в пошуку сенсу, Мішель і Ліберман Ейден наголосили, що культуроміка просто надала їм інформацію для роздумів. Інтерпретація зберігає важливу роль.

«Я не хочу, щоб гуманітарії відразу приймали якісь конкретні твердження – ми просто викладаємо на стіл багато цікавих ідей, – сказав Ліберман Ейден. – Питання в тому, чи готові ви вивчати ці дані?»

Мішель і Ліберман Ейден розпочали свої дослідження 2004 року з неправильних дієслів. Тоді ще не існувало сервісу Google Books, і їм доводилося вивчати купи англосаксонських текстів, сторінку за сторінкою. Процес зайняв 18 місяців.

«Ми були виснажені», – сказав Ліберман Ейден. Ця копітка робота «була просто пасом у нікуди, ми могли б зібрати цей набір даних і нічого не довести».

Тоді вони прочитали про плани Google створити електронну бібліотеку і сховище для кожної книжки, будь-коли опублікованої, і визнали, що можуть революціонізувати їхні дослідження. Вони сконтактували з Пітером Норвіґом, директор з питань досліджень Google у справі використання зібрання для проведення статистичного аналізу.

«Він зрозумів, що це прекрасна можливість для науки і для Google, – сказав Мішель. – Наступні чотири роки ми провели, працюючи над багатьма складними питаннями». Зокрема, над правовими труднощами й ускладненнями в обчисленнях. (Йдеться про мирову угоду, яку запропонували після групового позову щодо авторських прав і компенсацій, який подали письменники і видавці у відповідь на плани Google оцифрувати книжки, – справа на розгляді в судах). Google стверджує, що проект з культуроміки не викликає жодних питань щодо авторських прав, тому що самі книжки або навіть розділи з них не можуть бути прочитані.

Поки що Google відсканувала понад 11% усього обсягу опублікованих книг, близько два трильйони слів. Дані, аналізовані у статті, містять майже 4% обсягу.

Сховище слів дозволяє проаналізувати культурні впливи статистичними методами, які раніше не були доступними. Культурні впливи у вигляді слів, як правило, з’являються у книжках значно рідше, ніж повсякденні слова, каже Мішель, сферою досвіду якого є прикладна математика та системна біологія. Точна картина потребує величезної вибірки. Перевірка, чи поширилося в культурі слово «sasquatch» [снігова людина – Z], вимагає обробки щонайменше мільярда слів на рік, каже він.

Як щодо культуроміки? За 20 років уведіть слово в оновлену базу даних і подивіться, що станеться.

Автор: Патриція Коен [Patricia Cohen]

Назва оригіналу: Google opens a digital window on 2 centuries’ worth of words

Джерело: The International Herald Tribune, 17.12.2010

Зреферував: Омелян Радимський, , «Zахідна аналітична група»