Центральная Научная Библиотека
Copyright © 2007 Центральная Научная Библиотека
Адрес: 620219, г. Екатеринбург, ул. С. Ковалевской, 20


Центральная Научная Библиотека
Среда, 22 Ноября 2017г.


06 Апреля 2010

Конференц-зал забит до отказа, доклады выступающих — о новейших технологиях, слушателей интересует векторизация и линеаризация поиска. При этом за трибуной — люди в джинсах и футболках, из зала то и дело звучат реплики, публика сидит, в том числе и на ступеньках в проходах… 1 апреля в гостинице «Рэдиссон САС Славянская» прошёл «СтуДень—2010» —  студенческая конференция, организованная компанией «Яндекс».   Илья Сегалович: «Вы будете смеяться, но все сотрудники “Яндекса” каждый день смотрят: какое сегодня пользовательское счастье? И все думают, как бы увеличить его, скажем, ещё на 0,2?»

Формат, с одной стороны, обычный — доклады, вопросы, кофе-брейки. Однако со студенческой аудиторией не соскучишься даже на конференции: куча вопросов, комментариев, мнений, часто весьма неожиданных, у многих в зале — ноутбуки, и публика успевает транслировать всё происходящее в «Твиттере». Атмосфера весьма весёлая, хотя разговор состоит не из первоапрельских шуток. В перерывах молодёжь не раз воспользовалась предложением ведущего конференции «отловить и дополнительно допросить» тех, у кого на груди был фирменный жёлтый бейдж, рисовала своё представление о «Яндексе», чувствовала себя раскованно на пуфиках в холле и, само собой, держалась ближе к чайно-кофейной зоне. Учитывая, что 1 апреля был обычный учебный день, прогулять занятия ради конференции решили самые «мотивированные»  — те, кого особенно привлекло предложение поговорить о том, как устроен поиск популярнейшего сервиса, а также о том, чему можно научиться в школе анализа данных этой компании и как пройти в ней стажировку. При этом организаторы предложили разговор в первую очередь студентам-непрограммистам, поэтому было много не только математиков, но и гуманитариев.

Открыл конференцию директор по технологиям и разработкам «Яндекса» Илья Сегалович. Несмотря на то, что его рассказ об истории компании был кратким, его завалили вопросами. Интересовались, за сколько продали первую программу, каким профессионалы видят будущее поисковых систем, спрашивали о семантическом поиске и о SEO, о том, не планирует ли компания выпускать свою операционную систему, не было ли каких-либо заказов на поисковые сервисы от госорганов. Некоторые реплики поначалу ставили создателя «Яндекса» в тупик.

«То, что вы занимаетесь ответами на вопросы пользователя, это слишком громко сказано. Вы не сделали ровным счётом ничего, чтобы решить главную проблему, возникающую при запросе, — заинтриговал всех студент, представившийся „Володей из Физтеха“.  — Эта проблема — дефектность самого языка. Согласно теореме Гёделя, в любом языке есть недоказуемые и неопровержимые утверждения. Например, утверждение „Стремиться к успеху — невыгодно“ не даёт понимания, надо ли к нему стремиться. Поэтому непонятно, что пользователь посчитает хорошим, подходящим, по его мнению, результатом в ответе на такой запрос».

Можно просто посчитать, как часто люди бывают счастливы. Мы научились это определять. Наша главная метрика так и называется: пользовательское счастье

Сегалович согласился с активным студентом и пояснил, что понимать каждый запрос на таком тонком уровне вовсе не нужно. Есть способы оценить качество работы системы, не прибегая к такой категорической трактовке: правильно или нет понят запрос: «Можно просто посчитать, как часто люди счастливы. Если часто — система работает хорошо». «Вы думаете, люди часто бывают счастливы?» —  не унимался студент, срывая аплодисменты зала. «Да. Мы научились это определять, — ответил техдиректор „Яндекса“. —  Наша главная метрика так и называется: пользовательское счастье, сокращенно ПС. Вы будете смеяться, а все сотрудники „Яндекса“ каждый день смотрят это число: какое сегодня пользовательское счастье? Например, 32,4. И все думают: как бы увеличить счастье ещё на 0,2?»

Матрикснет

Ради самого дорогого —  счастья пользователя, которое в менее экстремальных терминах можно обозначить как качество поиска —  в «Яндексе» разработали и в конце прошлого года внедрили новый метод машинного обучения — «Матрикснет». Журналистам об этом подробно рассказали на пресс-конференции Илья Сегалович и генеральный директор компании Аркадий Волож.

 Аркадий Волож: «Мозговая нефть — крайне важна для нас. Если бы её не было, через десять лет нам всем пришлось бы сложить вещи и уехать»

Основная задача поисковой системы —  дать максимально точный ответ на вопрос пользователя. Сегодня по многим запросам система находит миллионы страниц, и число их очень быстро растёт. Поэтому уже недостаточно просто показать все страницы со словами из запроса  — чтобы найти подходящий ответ, человеку придётся листать их десятками. Нужно расположить найденные страницы так, чтобы сверху оказались наиболее релевантные. Именно ранжирование определяет качество поиска. Написать для поисковой системы программу, предусматривающую каждый запрос, невозможно: в «Яндекс» поступает более 100 миллионов запросов каждый день, и примерно половина из них  —  неповторяющиеся. Поэтому поисковая система должна принимать решения самостоятельно. Для этого ей нужно уметь обучаться, «строить правило», которое определит для каждого запроса, какая страница является хорошим ответом на него, а какая —  нет. Для точного поиска машине важно учитывать очень много разных факторов —  количество ссылок на эту страницу в Интернете, присутствие в тексте страницы слов запроса, их количество и расположение, геозависимость и т. д. Кроме факторов ранжирования поисковой системе даются вручную составленные образцы —  запросы и страницы, которые специалисты считают подходящими ответами на эти запросы. На такой обучающей выборке поисковая система устанавливает зависимость между страницами, которые люди посчитали релевантными запросам, и свойствами этих страниц. После этого она может подобрать оптимальную формулу ранжирования, которая показывает релевантные запросу сайты среди первых результатов поиска.

Машинное обучение применяется в поисковых технологиях с начала 2000-х годов. Одна из проблем, которые возникают при этом,  —  переобучение: робот начинает учитывать слишком много факторов и находить несуществующие закономерности. Важнейшая характеристика «Матрикснета»  — устойчивость к переобучению. С помощью этого метода можно построить формулу ранжирования с огромным количеством факторов. Это позволяет сделать существенно более точный поиск.

«Улучшение качества поиска способствует заметному росту доли рынка, —  объясняет Аркадий Волож. —  Если обычно новые технологии приводят к росту качества в 1—2 процента, то „Матрикснет“ дал нам скачок в 5 процентов, что довело нашу долю на интернет-рынке до 60 процентов».

На вопрос, запатентована ли технология, гендиректор «Яндекса» ответил, что в софте ничего не патентуется, и уточнил: «Технология защищена знаниями. В журналах появляются статьи, наверное, что-то подобное мы сделаем и в „Яндексе“ в течение года. Патенты призваны не защищать технологию, а развивать её: тот, кто идёт за вами, делает так же, но с каким-то улучшением.

Прогулять занятия ради конференции решили самые «мотивированные» — те, кому особенно интересно, как устроен поиск «Яндекса». Было много не только математиков, но и гуманитариев Улучшение качества поиска приводит к заметному росту доли рынка. Если обычно новые технологии способствуют росту качества в 1—2 процента, то «Матрикснет» дал скачок в 5 процентов, что довело долю «Яндекса» на интернет-рынке до 60 процентов

Слушатели поинтересовались, какова связь «Школы анализа данных „Яндекса“», где учатся и стажируются талантливые студенты, с передовыми технологиями компании? «Я не могу сказать, что есть прямая связь,  —  сказал Илья Сегалович,  — всё же ребята в „Школе анализа“ —  совсем молодые, ещё студенты, но подпитка их идеями, разговорами полезна компании».

«Это —  особая среда,  —  добавил Аркадий Волож. — Школа важна для того, чтобы эта среда продолжала жить. Там снизу идёт мозговая нефть, и мы её научились добывать. Это для нас крайне важно. Если бы не было этой нефти, через десять лет нам всем пришлось бы сложить вещи и уехать».

Заодно и работу присмотреть

«СтуДень»  —  гарантия того, что вещи складывать «яндекситам», как зовут сотрудников «Яндекса» в своих блогах студенты, пока незачем. Если журналистам первые лица компании лишь вкратце объяснили суть передового метода, чтобы, по словам Воложа, «не слишком загрузить», то студентов в конференц-зале «грузили» по полной программе. Молодым любителям «научпопа» рассказывали об индексации, запросах, о дата-центрах компании, о том, как обеспечивается администрирование сервисов, о фильтрации контента, об антиспаме, о внутренних корпоративных сервисах. В перерывах в фойе проходили соревнования по скоростному поиску в Интернете, состязания «асессоров» (так называют людей, которые «вручную» оценивают сайты, чтобы дать роботу образец для формулы поиска), викторины, краш-тесты студенческих идей, а также пробные собеседования, на которых каждый мог узнать, какие вопросы будут задавать при приёме на работу в «Яндекс». Было очевидно, что в самом ближайшем будущем «мозговой нефти» несложно будет выбрать нужное русло. Во всяком случае, в ЖЖ и «Твиттере» о «СтуДне» отзываются как о мероприятии, где «отлично провели время, узнали много интересного, отлично поели, познакомились с клёвыми чуваками, поняли, что всё сложнее, чем казалось, услышали ответы на массу вопросов. Да, и ещё раз отлично поели».

Елена Укусова
STRF.ru
--


К списку новостей
Центральная Научная Библиотека
EBSCO
Discovery
Service

Ключевое слово
Название
Автор
Создание сайта Создание сайта — Сайтсофт © 2007 г.