detector.media
20.12.2010 12:38
Google відкриває цифрове вікно для словесного скарбу двох століть
Google відкриває цифрове вікно для словесного скарбу двох століть
Без великої помпи Google відкрила велетенську базу даних, зібраних із майже 5200 тисяч оцифрованих книжок, доступних для безкоштовного стягнення й он-лайн-пошуку, створивши новий ландшафт можливостей для досліджень і освіти в галузі гуманітарних наук.
 
Цифрове сховище, яке складається зі слів і коротких фраз, а також щорічного підрахунку частоти їх появи, вперше стало набором даних такого масштабу з інструментами для пошуку, доступним для аспірантів, учнів середніх шкіл і всіх, хто любить проводити час перед невеликим екраном. Воно складається з 500 мільярдів слів, що містяться в книгах, виданих між 1500 і 2008 роком англійською, французькою, іспанською, німецькою, китайською та російською мовами.
 
Сховище призначене для наукової аудиторії, але прості он-лайн-інструменти дозволяють будь-кому з комп’ютером набрати рядок до п’яти слів і подивитися діаграму, що репрезентує вживання фрази протягом тривалого періоду – розвага , що скоро може так само садити на голку залежності як садить гра Angry Birds [«Злі птахи» - аркадна гра під i-pod’и].
Якщо ви наберете «women», то порівняно з «men» слово рідко згадують аж до початку 1970-х років, коли утвердився фемінізм. Лінії перетинають аж близько 1986 року.
 
Ви також можете дізнатися, що Міккі Маус і Мерилін Монро не здобули стільки уваги у книжках, як Джиммі Картер; порівняйте, скільки посилань у літературі англійською мовою на «площу Тяньаньмень» після 1989 року, а скільки в літературі китайською; або ж простежте розширення вживання «grilling» [грилювання] з кінця 1990-х, поки воно не випередило «roasting» [запікання] і «frying» [смаження] 2004 року.
 
«Мета полягає в тому, щоб дати 8-річному змогу переглядати культурні тенденції протягом усієї історії, зафіксованої у книжках», – каже Ерец Ліберман Ейден, молодший науковий співробітник Товариства стипендіатів у Гарвардському університеті. Ліберман Ейден і Жан-Батист Мішель, стипендіат Гарвардського університету, збирали дані з Google й очолили науково-дослідний проект, який має продемонструвати, як величезні цифрові бази даних можуть змінити наше розуміння мови, культури й обміну ідеями.
 
Їхнє дослідження, яке опублікують у журналі Science у п’ятницю, пропонує звабливий смак багатого фуршету можливостей дослідження, тепер відкритим для професорів літератури, історії й інших вільних мистецтв, які, можливо, раніше уникали кількісного аналізу. Наука робить незвичайний крок і відкриває он-лайн-доступ до паперових праць тим, хто не готовий до цього.
 
«Ми хотіли показати, що можливо в разі застосування дуже високоточного аналізу даних до галузі гуманітарних наук», – сказав Ліберман Ейден, сферою інтересів якого є прикладна математика та геноміка. Сам він назвав свій метод «культуромікою».
Набір даних доступний для стягування, і користувачі можуть створювати власні інструменти пошуку.
 
Працюючи з набором даних, зокрема зі сфери літератури на івриті, датованим від 1800 року, дослідники виміряли тривалість слави: письмові згадки про відомих осіб у середині ХХ століття зникали удвічі швидше, ніж на початку ХІХ ст. «У майбутньому всі будуть відомими протягом 7,5 хвилини», – пишуть вони.
Досліджуючи винаходи, вони дійшли висновку, що технологічним інноваціям у середньому треба було 66 років, щоб прижитися в культурі на початку 1800-х і лише 27 років у 1880-1920-х рр.
 
Вони відстежили, як розвивалися неправильні англійські дієслова, до яких не треба було додавати «ed» у кінці слова, щоб утворити минулий час («learnt»), аж поки не почали відповідати загальному шаблону («learned»). Вони вважають, що за останні 50 років англійський лексикон зріс на 70%, до понад мільйона слів, і продемонстрували, як можна швидше оновлювати словники, виявляючи нові популярні та застарілі слова.
Стівен Пінкер, лінгвіст із Гарварду, який працював над розділом статті в Science про еволюцію мови, вивчає зміни у граматиці та формах минулого часу протягом 20 років.
«Коли я побачив у них цю базу даних, я загорівся ентузіазмом, – сказав він. – Існує так багато невігластва. Ми могли тільки спекулювати про те, що могло статися в мові».
 
Інформація про зміни форм дієслова «робить результати переконливішими і повнішими», додає Пінкер: «Те, про що ми розповідаємо в цій праці, є тільки початком».
Незважаючи на частий опір кількісному аналізу в деяких розділах гуманітарних наук, Пінкер зазначив, що впевнений: використання цього та подібних інструментів «стане повсюдним».
 
Реакції вчених-гуманітаріїв, які переглянули статтю, були стриманішими. «Загалом, дуже добре мати такі інструменти», – сказав Луїс Мененд, професор англійської мови в Гарвардському університеті. Але він попередив, що у сфері культурної історії «очевидно, що деякі з претензій трохи перебільшені». Він також стурбований, що серед 13 авторів статті не було жодного гуманітарія.
 
«Серед них не було навіть історика книжки», – зауважив Мененд.
Алан Брінклі, колишній проректор Колумбійського університету і професор американської історії, сказав, що зарано говорити, який вплив матиме пошук за словами і фразами. «Я можу уявити безліч цікавих способів застосування цього експерименту, але я просто не знаю достатньо про їх статистичну методологію», – сказав він.
 
У відповідь на тривоги гуманітаріїв, що сутність їхнього мистецтва полягає в пошуку сенсу, Мішель і Ліберман Ейден наголосили, що культуроміка просто надала їм інформацію для роздумів. Інтерпретація зберігає важливу роль.
«Я не хочу, щоб гуманітарії відразу приймали якісь конкретні твердження – ми просто викладаємо на стіл багато цікавих ідей, – сказав Ліберман Ейден. – Питання в тому, чи готові ви вивчати ці дані?»
 
Мішель і Ліберман Ейден розпочали свої дослідження 2004 року з неправильних дієслів. Тоді ще не існувало сервісу Google Books, і їм доводилося вивчати купи англосаксонських текстів, сторінку за сторінкою. Процес зайняв 18 місяців.
 
«Ми були виснажені», – сказав Ліберман Ейден. Ця копітка робота «була просто пасом у нікуди, ми могли б зібрати цей набір даних і нічого не довести».
Тоді вони прочитали про плани Google створити електронну бібліотеку і сховище для кожної книжки, будь-коли опублікованої, і визнали, що можуть революціонізувати їхні дослідження. Вони сконтактували з Пітером Норвіґом, директор з питань досліджень Google у справі використання зібрання для проведення статистичного аналізу.
 
«Він зрозумів, що це прекрасна можливість для науки і для Google, – сказав Мішель. – Наступні чотири роки ми провели, працюючи над багатьма складними питаннями». Зокрема, над правовими труднощами й ускладненнями в обчисленнях. (Йдеться про мирову угоду, яку запропонували після групового позову щодо авторських прав і компенсацій, який подали письменники і видавці у відповідь на плани Google оцифрувати книжки, – справа на розгляді в судах). Google стверджує, що проект з культуроміки не викликає жодних питань щодо авторських прав, тому що самі книжки або навіть розділи з них не можуть бути прочитані.
 
Поки що Google відсканувала понад 11% усього обсягу опублікованих книг, близько два трильйони слів. Дані, аналізовані у статті, містять майже 4% обсягу.
Сховище слів дозволяє проаналізувати культурні впливи статистичними методами, які раніше не були доступними. Культурні впливи у вигляді слів, як правило, з’являються у книжках значно рідше, ніж повсякденні слова, каже Мішель, сферою досвіду якого є прикладна математика та системна біологія. Точна картина потребує величезної вибірки. Перевірка, чи поширилося в культурі слово «sasquatch» [снігова людина – Z], вимагає обробки щонайменше мільярда слів на рік, каже він.
 
Як щодо культуроміки? За 20 років уведіть слово в оновлену базу даних і подивіться, що станеться.
 
Автор: Патриція Коен [Patricia Cohen]
Назва оригіналу: Google opens a digital window on 2 centuries’ worth of words
Джерело: The International Herald Tribune, 17.12.2010
Зреферував: Омелян Радимський, , «Zахідна аналітична група»

detector.media
DMCA.com Protection Status
Design 2021 ver 1.00
By ZGRYAY