Центральная Научная Библиотека
Copyright © 2007 Центральная Научная Библиотека
Адрес: 620219, г. Екатеринбург, ул. С. Ковалевской, 20


Центральная Научная Библиотека
Среда, 22 Ноября 2017г.


19 Августа 2008

Как сообщает Science Now, компьютерные специалисты из университета Карнеги-Меллона в Питтсбурге адаптировали программу для борьбы со спамом, часто используемую в Интернете, в инструмент для оцифровки старых печатных текстов.
Программа CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart) используется для того, чтобы отличить человека от машины. Она показывает рисунок с искаженными буквами и просит набрать этот текст на клавиатуре. Человек делает это легко, а современные оптические считывающие устройства часто не справляются с заданием.
На основе CAPTCHA ученые создали новую программу reCAPTCHA, которая собирает слова, помеченные как нечитаемые при сканировании бумажных текстов. Таких слов, которые не распознаются автоматически, очень много при сканировании старых книг и газет из-за плохого состояния бумаги. Раньше приходилось просматривать сканированные тексты и исправлять слова вручную.
Теперь программа reCAPTCHA предъявляет обычный случайный набор букв и цифр, и одновременно неопознанное при сканировании (оптически искаженное) слово. Если несколько пользователей, опознанных как люди, наберут непонятное слово одинаковым образом, то оно автоматически будет опознано именно так, как его набрали. Таким образом, человек, проходящий тест на «человечность», одновременно помогает оцифровке старых текстов, при этом 99% слов прочитываются точно.
Человек в среднем тратит на тест 10 секунд. Так как в Интернете каждый день производится около 200 миллионов подобных тестов, в сумме можно получить около 500 тысяч полезных часов в день.
Сейчас система reCAPTCHA автоматически использует 4 миллиона обращений в день на 40 тысячах веб-сайтах, что эквивалентно работе 1500 человек в течение всего рабочего дня при скорости чтения 60 слов в минуту.
В течение года сервис помог распознать 440 миллионов слов для оцифровки газет и архивов. В частности, с его помощью была оцифрована подшивка газеты The New York Times за 1908 год. Программа доступна по адресу www.recaptcha.net для любого желающего веб-сайта.

Источник: ПОЛИТ.РУ


К списку новостей
Центральная Научная Библиотека
EBSCO
Discovery
Service

Ключевое слово
Название
Автор
Создание сайта Создание сайта — Сайтсофт © 2007 г.