Rambler выпустил обновленную версию поисковой машины
- 10 декабря 2002 года 08:00
- Категория: Новости
- Комментарии: 0
Благодаря закупке новейших серверных систем AMD/TYAN Rambler получили мощности, необходимые для дальнейшего развития программных алгоритмов.
На серверах Rambler хранится архив российского интернета объемом порядка 1,5 терабайт. Наличие полной копии всех обработанных Rambler страниц позволяет нам без потерь провести кардинальные изменения в алгоритмах поиска и индексирования информации, а также ранжирования результатов поиска. Готовится к вводу новый поиск по новостям.
Изменился «паук», или «crawler» – робот, который собирает «первичный» материал для поисковой системы. Новый робот трудится «засучив рукава» благодаря новым возможностям масштабирования и распределению нагрузки по серверам. Если до введения в строй нового оборудования его максимальная отдача на пике составляла 4,5 млн. веб-страниц, то теперь он собирает более 6,9 миллионов страниц в сутки. Это означает, что теперь мы можем оперативнее отслеживать изменения в интернете: Rambler быстрее вносит в базу новые страницы и «замечает» изменения на уже знакомых ему веб-сайтах.
Изменилась системы индексирования. Новый модуль уже успел установить внутренний рекорд Rambler, обработав за сутки 603 гигабайта документов, хотя и это не предел. Для владельцев веб-ресурсов и наших пользователей это означает рост объема индекса и частоты его обновления. В начале нового года мы планируем модернизировать наш поиск по новостям, обеспечив индексацию ведущих информационных ресурсов с интервалом в два часа.
Доработана система ранжирования результатов поиска. Теперь Rambler формирует ответ на поисковый запрос с использованием не только традиционных методов определения релевантности, но и так называемого «коэффициента популярности». Этот коэффициент рассчитывается путем анализа гиперссылок и учета показателей счетчиков рейтинговой системы Rambler’s Top100. В результате пользователь быстрее найдет то, что ему нужно: в результатах поиска нужные ссылки будут стоять выше!
Одна из частей поисковой машины Rambler, которая практически не подверглась изменениям
– это модуль отсева нерелевантных документов и система защиты от спама и «двойников»,
которую мы считаем одной из лучших в российском интернете. Цифра «найденных страниц» не имеет
значения, когда вам важен результат. Главное достоинство поисковика не в абсолютной полноте охвата
(кому нужен весь интернет?), а в способности тщательно отбирать нужную информацию. Рамблер
находит не обязательно больше, но лучше, чем другие поисковые машины, но он лучше других умеет
избавлять пользователя от мусора!