"Рамблер"
Поисковая машина "Рамблер" начала работу в октябре 1996 года, на стартовом этапе содержала всего 100 тысяч документов. "Рамблер" не был первой отечественной поисковой системой, однако в первый год своего существования (когда весь русский веб с приемлемой степенью правдоподобия индексировался "Рамблером", "Апортом", "Русской поисковой машиной", а также шведской и калифорнийской AltaVista) вынес основной груз поисковых запросов. Вторая версия "Рамблера" начала разрабатываться летом 2000 года, в марте нынешнего года приняла достаточно законченные очертания. В нее были введены функции, давно уже имевшиеся в конкурирующих системах. Она учитывает координаты слов, обучена строгой и нечеткой морфологии, связывает поиск с каталогом, в качестве которого используется Top100 (http://top100.rambler.ru/), группирует результаты поиска по сайтам, ищет по числам. Достаточно удачная архитектура продукта позволяет "Рамблеру" иметь для поисковика количество серверов в 2 раза меньшее, чем у "Яндекса", и в 3 раза меньшее, чем у "Апорта".
Важно для рекламодателей. Примерно половину показов на "Рамблере" дает поисковая система. Новый "Рамблер" распознает темы по аннотациям, чтобы связывать результаты поиска с другими разделами портала. Составлен тезаурус запросов, с помощью которого выделяются их темы. К примеру, запрос "лекарство такое-то" и реклама того же лекарства в некой аптеке дает CTR в 10 раз больше обычного. Делаются "перевязки" на другие разделы портала, которые выдаются вместе с результатами поиска, обеспечивая примерно 20% общей посещаемости разделов Rambler.ru (их средний CTR 4%). Существует статистический сервис, пока не сделанный публичным (доступен только работникам "Рамблера" и некоторым рекламодателям): выдача списка других запросов, которые делают авторы базового запроса, интересующего рекламодателя.
Важно для вебмастеров. "Паук" "Рамблера" производит индексирование в новостях 5 раз в день; в сайтах, входящих в Top100, - 1 раз в день; все прочие посещаются не чаще, чем 1 раз в две недели. Рамблер не индексирует личные странички, находящиеся на публичных зарубежных серверах (geocities, tripod и других), а страницы подобных отечественных сайтов (narod, boom) обходит медленней, чем другие ресурсы. Поскольку новостными считаются всего около 40 сайтов, выгодно иметь на своих страницах счетчик Top100 для быстрого отображения страниц в поисковой машине "Рамблера". К тому же, в рейтинг Top100 можно вносить подробные аннотации объемом до 4 Кб. Динамические страницы "Рамблер" пока не индексирует. На выставке "Комтек" руководством компании было указано, что именно нынешним летом эта ситуация может измениться. Новый и. о. президента "Рамблера" Антон Носик против этого запланированного нововведения.
Специалисты "Рамблера" пришли к выводу, что борьба с копиями не может идти только на уровне программных алгоритмов. Например, такая простая операция как отслеживание (с участием модератора) ситуации, при которой каждый документ, имеющий на 40 зеркалах библиотеки Мошкова, считается системой за один, экономит до 10% ресурсов поисковой базы.
|