Интернет Реклама dot com |
![]() |
Реклама в интернете. |
Этап № 1: |
Этап № 2: |
Этап № 3: |
Этап № 4: |
![]() |
![]() |
Обзор трех основных поисковых систем Рунета: Апорта, Рамблера,
Яндекса |
Сравнение качества поиска Пример. Пусть по запросу найдено 50 документов. После просмотра их всех пользователь принимает решение, что 30 документов релевантны запросу, а 20 нерелевантны. Сплошной просмотр всей базы данных показывает, что в ней содержится 100 документов, релевантных запросу. Отсюда получаем, что полнота 30/100 = 0,3; точность 30/50 = 0,6. Как правило, улучшая один из названных параметров, ухудшаешь другой. Используется также такая обобщенная характеристика, как техническая эффективность поисковых машин, включающая скорость поиска по запросу, объем базы, удобство представления результатов, скорость индексирования информации и так далее. Но особое место среди этих параметров занимают показатели качества поиска - в этом сходятся мнения всех создателей поисковых машин. Отечественная компьютерная пресса, которая так любит устраивать тестирование
лингвистических программ (например, систем оптического распознавания), пока
ни разу не организовала ни одного тестирования отечественных поисковиков (в
отличие от ZDnet). Научные тестирования поисковиков также представляются недостаточно
объективными, так как используют, к примеру, всего четыре типа запросов (без
учета реальной частоты этих запросов на некоторую поисковую машину). Поэтому
остановимся на исследованиях для оценки точности по методике Н. Харина. Она
используется во время периодических внутрифирменных тестирований поисковых машин
в "Рамблере" группой приглашенных экспертов-лингвистов (обычно, в течение двух
недель каждое). Можно считать это тестирование независимым, так как его результат
не используется заказчиком в маркетинговых целях. Исследования проводились путем
оценки результатов поиска различных поисковиков по одним и тем же 100 популярным
запросам, состоящим из одного, двух, трех и четырех слов. Важным условием всех
исследований были четкие формулировки, какие именно документы считать релевантными
смыслу каждого из запросов (без этого были бы получены сильно завышенные оценки
технической эффективности). Часто встречающиеся запросы, содержащие ненормативную
лексику, не учитывались. Сравнение релевантности поисковых систем
Заинтересованным лицам - еще несколько абзацев о методике исследований (остальные могут перейти к следующей главе). Тестировалось качество ранжирования с определением точности при 10, 30, 50, 70 и 100 документах из начальной части списка и с учетом градации значений точности (точность при 30 документах важнее точности при 300 документах, иными словами, основной интерес представляет зависимость между полнотой и точностью в области малых значений полноты). Известно, что отношение суммарной частоты всех запросов, состоящих из одного слова, к суммарной частоте всех запросов равно примерно 0,5. Поэтому отбиралось 50 однословных запросов с максимальной частотой. Отношение суммарной частоты запросов из двух слов к суммарной частоте всех запросов равно 0,3. Поэтому отбиралось 30 двухсловных запросов с максимальной частотой. Дальше действуем аналогичным образом. По каждому запросу проводился поиск во всех сравниваемых поисковых машинах.
Решение о релевантности или нерелевантности документа принимается после
просмотра его полного текста, а не аннотации, выдаваемой в результатах
поиска по запросу. Пример. Характеристическое множество содержит 5 элементов - значения
точности при 10, 30, 50, 70, 100 документах из начальной части списка
найденных документов. При такой структуре характеристического множества
эксперт должен принять решение о релевантности первых 100 из найденных
документов. Об исследовании других характеристик поисковых машин. Небезынтересны оценки (http://www.metabot.ru/engines.html) роботов-пауков ведущих поисковиков от создателей Metabot.ru, особенно в той части, где "Апорт" и "Рамблер" они относят к "локальным системам, со схемой выборочной индексации". Исследования полноты поисковых систем заведомы неточны. Совершенно очевидно, что при том объеме базы, что имеется у "Яндекса", он является самой полной системой, независимо от того, как отслеживаются дубли в разных поисковиках. Определение полноты индексирования путем поиска некоторых образцовых документов в каждой из сравниваемых поисковых машин (еще одна очень сложная методика Харина) привело к следующим результатам.
Полнота 0,53 для "Рамблера" означает, что из 15 документов, отобранных "Яндексом", "Апортом" и Google, "Рамблер" находит 8 документов. Поскольку данная методика выглядит отчасти "от лукавого", предлагаю читателю ориентироваться на методику Сегаловича. Она заключается в том, что наугад берется N редких слов, настолько редких, чтобы было легко проверить весь результат их поиска. Потом сравнивается количество найденных релевантных документов по каждому слову. Усредненные результаты представлены в таблице. Надо отметить, что подобные оценки проводятся с конца прошлого года (первоначально самим Ильей Сегаловичем, главным разработчиком "Яндекса"), однако соотношения получаются практически идентичными.
Google вычисляет ранг матрицы 400 млн x 400 млн, причем последовательно. Российские поисковые машины еще не обладают такими вычислительными мощностями. Пример. Для оценки корректности вычисления Page Rank можно использовать тест Носика: при запросе "Мастер и Маргарита" первой в выдаче должна получаться начальная страница названного романа в "Библиотеке Мошкова" (как это и происходит в Google). В "Апорте" тест выполняется правильно, в "Яндексе" искомый результат получается в выдаче шестым (тест давал устойчивый результат в промежутке 24.05 - 19.06). Кстати, нарцисстический тест (то есть запрос "Андрей Травин") давал в "Апорте" почти правильный ответ (вторым в выдаче "Апорта" идет первый ответ из Google, и это незначительное искажение имеет очевидные причины), в "Яндексе" получается неправильный, по сравнению с Google результат. Отечественные поисковые машины на пьедестале почета В нынешнем положении российских поисковиков стоит отметить две оптимистические
для них тенденции. Первая - поисковики в Рунете популярнее каталогов-классификаторов.
Согласно исследованиею "SpyLOG - Глобальная статистика", для средних и малых
сайтов вклад поисковых систем уже в 2 раза превышает суммарный вклад каталогов
и рейтингов. Почему важна вторая тенденция? Любой потенциально массовый рынок осваивают
первые компании-лидеры. Предположим, что среди них есть три, которые совместно
держат 80 процентов этого рынка. В абсолютных величинах они пока охватывают
всего 2-5 процентов населения. Вероятность, что эти три компании удержатся в
лидерах, к тому моменту, когда рынок будет размером хотя бы в 30 процентов населения,
прямо зависит от базовой характеристики рынка. Если рынок невысокотехнологичный,
шансы у первопроходцев задавать тон в своей нише не очень высоки. Если высокотехнологичный,
то шансы весомы (пример - Intel). В целом Интернет не является высокотехнологичным
рынком и поэтому на нем будет постоянно происходить смена главных игроков. Поисковые
системы одна из высокотехнологичных ниш в отрасли. Лидерство поисковых машин
определяется сравнительно сложными технологиями, полнотой базы, большим парком
компьютеров и привычками пользователей. В настоящее время в России разрабатывается
или уже разработано около 10 поисковых машин, некоторые из них (к примеру, Punto.ru)
стартовали. Их база такова, что найти ими практически ничего нельзя. Однако важно отметить, что наиболее вероятные перспективы "Апорта" -
быть затоптанным слоновьей поступью Golden Telecom, как это случилось
с Infoart, Atrus, Emedia и множеством других сайтов. Возможные перспективы "Рамблера": приобрести лицензию на какой-либо сторонний
каталог - для улучшения собственной поисковой машины, и другую поисковую
машину - для улучшения сервиса для своих посетителей. Кстати, один из
источников дохода самого "Рамблера" - желающие купить его поисковую машину
в Украину и Прибалтику. Rambler.bg входит в тройку ведущих болгарских
поисковых машин (о перспективах yandex.pl, ranbler.de сказать пока еще
ничего нельзя). Общая проблема всех старых российских поисковиков-лидеров в том, что для того, чтобы обновить замусоренную базу и проиндексировать Рунет заново, требуется полностью обнулить индекс. Для полного понимания можно отметить, что метапоисковые системы (а их история в России составляет почти такой же промежуток времени, что и история русских поисковых систем) не влияют на рынок существенным образом. С 1999 года на рынке присутствует практически идеальный, на мой взгляд, инструмент метапоиска - Диско Наблюдатель (http://www.disco.ru/dwrus.htm). Однако наш народ за двадцать долларов, которые стоит эта программа, "удавится". Поэтому некоторые перспективы имеет бесплатный метапоисковый сервис MetaBot.ru. Позиционирование в поисковой системе Начиная со своей второй версии, "Яндекс", также как и Апорт, начал учитывать основные метатеги. "Рамблер" и Google продолжают их игнорировать. И, наконец, руководители "Яндекса" и "Рамблера" договорились об обмене информацией о злостных спаммерах поисковых систем с целью вообще выключить их из русского поиска. Трафикогенерация с поисковых машин (согласно отчету SpyLOG за январь 2001 года) составляла в целом 42 процента от "Яндекса" против 17,5 процентов от "Рамблера" или "Апорта". Согласно тому же отчету, для интернет-магазинов это соотношение принципиально другое: Яндекс - 69%, Rambler- 15,3%, Апорт - 9,8%, Google - 2,6%. Это связано с тем, что поиск по товарам в Яндексе превосходит аналогичную услугу в "Апорте" как технологически, так и с точки зрения гибкости ценовой политики для владельцев магазинов. Последнее исследование SpyLOG показывает, что доли "Апорта" и "Рамблера" теперь соответственно 18% и 12%, Google - 14% (!), а "Яндекс" лидирует с теми же самыми, что и зимой, 42 процентами. Зарубежные поисковики для русскоязычного пользователя
Copyright: Андрей
Травин Андрей Травин - специалист по маркетингу, в разное время участвовал в поддержке сайтов AtRus, Newspepper.ru, Boom.ru, Boomerang.ru и других, в 1999 году выпускал подписной лист "Новости поисковых систем" на e-mail.com.ua. |
Copyright: Интернет-реклама.com - реклама
в интернете |
|
|
|
|