Центральная Научная Библиотека
Copyright © 2007 Центральная Научная Библиотека
Адрес: 620219, г. Екатеринбург, ул. С. Ковалевской, 20


Центральная Научная Библиотека
Пятница, 24 Ноября 2017г.


24 Декабря 2010

Автор Антон Ермилин   
 

Исследователи из Гарвардского университета и компания Google реализуют необычный научный проект, задача которого заключается в «изучении культуры в количественном выражении». Используя библиотеку из миллионов отсканированных компанией Google книг, авторы проекта пытаются отследить особенности использования языка и различных общественно-важных тенденций на протяжении сотен лет.

В библиотеке отсканированных книг Google присутствуют книги с 1500 до 2008 года издательства. Всего здесь значится около 5 миллионов книг или 4% от общего количества изданных книг в мире.

Основная масса отсканированных книг написана на английском, китайском, немецком, французском, испанском и русском языках. Согласно данным компании, в сумме во всех отсканированных книгах содержится более 500 млрд слов.

В Google отмечают, что новый сервис, получивший название Books Ngram Viewer позволяет представить в новой форме количественные показатели по различным областям академических знаний, отследить исторические тренды, новые идеи и др. за счет отслеживания популярности тех или иных ключевых слов или фраз в текстах книг. В Google называют подобную метрику уникальной.

Интернет-гигант отмечает, что сейчас компания находится в процессе оцифровки еще примерно 10 миллионов книг, но эта работа еще не завершена и мета-данные по книгам не обновлены. Исследователи говорят, что разные книги в библиотеке Google оцифрованы с разным качеством, поэтому для наиболее полноценного анализа работа идет только с качественными материалами. В Гарварде говорят, что ими уже была обработана коллекция книг, которая, если бы читалась одним человеком, заняла бы у него 80 лет (при том, что человек бы не отвлекался на еду, сон и другие потребности).

Авторы проекта провели несколько простых анализов, определяющих частоту конкретных слов в общем объеме книжных слов, напечатанных в книгах за тот или иной год. Данные исследований показывают, что в 1900 году напечатаны были около 1,4 миллиарда слов, а вот столетие спустя этот показатель составил уже 8 миллиардов слов. Из этого объема слов исследователи составили так называемые н-граммы или короткие фразы из пяти слов.

Исследователи говорят, что это довольно простая задача, но она достаточна, чтобы обнаружить некоторые основные литературные тенденции. Например в США во время гражданской войны (1861—1865гг) отмечен всплеск слова «рабство» и словоформ, связанных с ним. В книгах чуть более позднего периода довольно часто упоминается словосочетание «движение за гражданские права».

Еще одним интересным моментом исследования стало выявление новых слов и выражений, называемых неологизмами. Всего с 1950 по 2000 годы в восьми исследуемых языках исследователи насчитали около миллиарда разных слов, причем каждый год появлялось примерно по 8500 новых слов. При этом отмечается, что в словарях неологизмов содержится в лучшем случае треть новых слов. Есть в книгах и отмирающие слова, которые уже непривычны слуху современных жителей, но были нормой еще для предыдущего поколения.

Исследователи использовали данные сетевых энциклопедий Википедия и Британика для отслеживания «траекторий знаменитостей». На основании проведенного анализа авторы проекта говорят, что в сравнении с 1800-м годом наши знаменитости помолодели, в то же время период их «звездности» сократился примерно вдвое. Актеры становятся довольно известными уже к 30 годам, против 50 лет ранее. В то же время, политики и авторы книг становятся сейчас известными старше, чем ранее. Снизился интерес и к таким людям, как ученые из области физики, химии, биологии и математики. «К сожалению, приходится утверждать, что наука это плохой путь к славе», — говорят авторы исследования.

Подразделение Google Labs создало веб-интерфейс, чтобы все желающие могли проследить интересующие их тенденции. Он доступен по адресу http://ngrams.googlelabs.com/

В компании говорят, что некоторые запросы дают логичные, но неожиданные результаты. Например, из-за множественного значения слова «панк» оно стало более популярным, чем «рок-н-ролл», хотя первое является поджанром последнего.

Источник: Зеркало Недели


К списку новостей
Центральная Научная Библиотека
EBSCO
Discovery
Service

Ключевое слово
Название
Автор
Создание сайта Создание сайта — Сайтсофт © 2007 г.