Как работает Google поиск — принципы работы

В большинстве случаев информацию, которая соответствует запросу, содержат тысячи или даже миллионы страниц. Как Google отбирает наиболее подходящие результаты? Ответ прост: мы стараемся подготовить все заблаговременно.

Сканирование и индексирование

Сканирование и индексирование

Google использует веб-сканеры, чтобы считывать информацию веб-страниц и другого общедоступного контента в поисковом индексе.

Подробнее

Алгоритмы Google Поиска

Алгоритмы Google Поиска

Чтобы пользователи получали актуальные и релевантные запросам результаты, инструменты ранжирования Google упорядочивают сотни миллиардов веб-страниц в поисковом индексе.

Подробнее

Полезные ответы

Полезные ответы

Объемы данных и разнообразие материалов в Интернете постоянно растут. Google представляет результаты поиска в различных форматах, чтобы пользователи как можно быстрее получали нужные сведения.

Подробнее

Как информация упорядочена в Google Поиске

Чтобы пользователи могли быстро найти нужные сведения, наши роботы собирают информацию на сотнях миллиардов страниц и упорядочивают ее в поисковом индексе.

Основы Google Поиска

При очередном сканировании наряду со списком веб-адресов, полученных во время предыдущего сканирования, используются файлы Sitemap, которые предоставляются владельцами сайтов. По мере посещения сайтов робот переходит по указанным на них ссылкам на другие страницы. Особое внимание он уделяет новым и измененным сайтам, а также неработающим ссылкам. Он самостоятельно определяет, какие сайты сканировать, как часто это нужно делать и какое количество страниц следует выбрать на каждом из них.

Владельцы сайтов могут при помощи инструментов для веб-мастеров указывать, как именно следует сканировать их ресурс, в частности, предоставлять подробные инструкции по обработке страниц, запрашивать их повторное сканирование, а также запрещать сканирование, используя файл robots.txt. Google не увеличивает частоту сканирования отдельных ресурсов за плату. Владельцам всех сайтов доступны одинаковые инструменты, позволяющие обеспечить высокое качество результатов поиска по их страницам.

Поиск информации с помощью сканирования


Интернет похож на библиотеку, которая содержит миллиарды изданий и постоянно пополняется, но не располагает централизованной системой учета книг. Чтобы находить общедоступные страницы, мы используем специальное программное обеспечение, называемое поисковыми роботами. Роботы анализируют страницы, а также переходят по ссылкам на них так же, как это делают пользователи. После этого они отправляют сведения об обработанных ресурсах на серверы Google.

Поиск информации с помощью сканирования

Систематизация информации с помощью индексирования

Во время сканирования наши системы обрабатывают материалы страниц так же, как это делают браузеры, и регистрируют данные по ключевым словам и новизне контента, а затем создают на их основе поисковый индекс.

Поисковой индекс Google содержит сотни миллиардов страниц. Его объем – больше 100 млн ГБ. Он напоминает страницу с оглавлением книги, так как в нем есть отдельная запись по каждому слову на всех проиндексированных страницах. Во время индексирования данные по странице добавляются в записи по всем словам, которые она содержит.
Систематизация информации с помощью индексирования

Построение Сети Знаний — более современный способ определить интересы пользователей по сравнению с сопоставлением ключевых слов. Для этого мы упорядочиваем не только данные по страницам, но и другие типы информации. В настоящее время Google Поиск позволяет найти нужный фрагмент текста в миллионах книг из крупнейших библиотек, узнать расписание общественного транспорта, а также изучить данные общедоступных источников, таких как сайт Всемирного банка.

Принципы работы алгоритмов Google Поиска


Чтобы пользователи за доли секунды получали не бесконечные списки адресов, а актуальные и релевантные результаты, системы ранжирования Google упорядочивают сотни миллиардов страниц в поисковом индексе.

Эти системы ранжирования состоят из наборов алгоритмов, которые, благодаря постоянной оптимизации Google Поиска, всё более точно определяют, что интересует пользователей и какие результаты следует показать.

Ниже перечислен ряд способов, позволяющих возвращать пользователям подходящие сведения при помощи алгоритмов Google Поиска.

Показ наиболее подходящих результатов

Анализ слов и выражений

Чтобы подобрать страницы, содержащие релевантные сведения, прежде всего необходимо проанализировать значение слов в запросе. Мы разрабатываем языковые модели, позволяющие определять, какие сочетания слов следует искать в индексе.

Для этого выполняется ряд действий – от интерпретации орфографических ошибок до определения типа введенного запроса на основе результатов последних исследований в области понимания естественного языка. Например, даже если у введенного вами слова несколько значений, Google Поиск определит верное. Это стало возможным благодаря специальной системе синонимов, которая создавалась пять лет и позволяет существенно увеличить качество результатов по более чем 30% запросов на разных языках.

Анализ слов и выражений

Мы также стремимся понять, какого рода сведения ищет пользователь. Нужна ли ему особая или, наоборот, расхожая информация? Содержит ли запрос слова, позволяющие заключить, что пользователю требуются сведения определенного типа, например «обзор», «изображения» или «часы работы»? Ввел ли пользователь популярные ключевые слова, указывающие на то, что его интересуют последние новости? Хочет ли он узнать адрес магазина, заведения или отделения компании в своем городе?

Подбор подходящих страниц

Затем мы подбираем страницы, содержащие информацию, которая соответствует запросу. Обычно, когда пользователь вводит запрос, наши алгоритмы ищут в индексе подходящие страницы, а также определяют, как часто ключевые слова встречаются на странице и в каких ее разделах (например, в заголовке или основном тексте).
Подбор подходящих страниц

Наши алгоритмы не только сопоставляют ключевые слова, но и определяют, насколько полная информация содержится в предполагаемых результатах поиска. Например, пользователя, указавшего запрос «собаки», вряд ли интересует страница, в которой сотни раз повторяется это слово. Мы стараемся убедиться в том, что та или иная страница содержит сведения по запросу, а не просто дублирует его. Так, алгоритмы Поиска определят, представлен ли на страницах нужный контент, например изображения собак, видео с их участием или список пород. Наконец, пользователю в первую очередь будут показаны страницы на том же языке, на котором введен запрос.

Ранжирование релевантных страниц

В большинстве случаев информацию, которая соответствует запросу, содержат тысячи или даже миллионы страниц. Мы разрабатываем алгоритмы, позволяющие оценивать релевантность страниц, чтобы наиболее подходящие из них показывались первыми.

Чтобы предоставлять наиболее актуальную информацию, эти алгоритмы оценивают сотни самых разных факторов – от новизны контента и количества повторов запроса до удобства просмотра страницы. Для выявления источников достоверных и актуальных сведений по той или иной теме мы отслеживаем наиболее популярные ресурсы среди пользователей, указывающих похожие запросы. Если на страницу ссылаются авторитетные в своей области сайты, это означает, что на ней вероятно представлен качественный контент.
Ранжирование релевантных страниц

В Интернете существует множество сайтов, содержащих спам. Их владельцы стараются обеспечить для них высокие позиции в результатах поиска, используя различные способы, такие как повтор ключевых слов и покупка ссылок, которые учитываются системой PageRank. Поскольку большинство подобных мошеннических или опасных сайтов не приносят посетителям никакой пользы, мы разрабатываем алгоритмы, позволяющие выявлять спам и исключать из результатов поиска сайты, нарушающие рекомендации для веб-мастеров.

Учет сведений о пользователях

Чтобы предоставлять пользователям наиболее подходящую и актуальную информацию, мы учитываем сведения об их местоположении, предыдущих запросах, настройках Google Поиска и т. д.

Мы показываем результаты поиска, исходя из сведений о стране и местоположении пользователей. Например, если житель Чикаго вводит запрос «футбол», ему в первую очередь будут показаны сведения об американском футболе и клубе «Чикаго Беарз». Если же запрос «футбол» указывает пользователь из Москвы, на более высоких позициях окажутся результаты, связанные с обычным футболом и Российской футбольной премьер-лигой. Кроме того, при подборе наиболее подходящих результатов учитываются настройки Поиска, в частности язык и использование Безопасного поиска (этот инструмент позволяет исключать откровенные результаты).
Учет сведений о пользователях

В некоторых случаях мы учитываем историю поиска пользователей, чтобы предоставлять им персонализированные результаты. Например, если вы ранее вводили запрос «Ростов против Спартака», а затем указали «Ростов», вероятно, вам нужны сведения не о городе, а о футбольном клубе. Чтобы указать, какие сведения из вашей истории поиска мы можем использовать и какие данные могут сохраняться в вашем аккаунте Google, перейдите на страницу myaccount.google.com.

Показ наиболее подходящих результатов

Прежде чем показывать результаты поиска, мы оцениваем всю найденную информацию в комплексе. Это позволяет определить, идет ли речь об одной теме или нескольких и не относится ли большинство страниц к чрезмерно узкой трактовке поискового запроса. Мы стремимся предоставлять пользователям разнообразную информацию в наиболее удобной для них форме. По мере развития Интернета мы оптимизируем свои системы ранжирования так, чтобы результаты по максимальному числу запросов были как можно более релевантными.
Показ наиболее подходящих результатов

Полезные ответы в самых разных формах


Однажды Ларри Пейдж заявил, что идеальной можно назвать поисковую систему, которая точно понимает значение запроса и возвращает максимально релевантные результаты. Со временем наши исследования стали показывать, что для пользователей также важна скорость предоставления результатов. Нам удалось достичь большого прогресса в работе над Google Поиском: он позволяет быстро предоставлять пользователям релевантные сведения в наиболее подходящей форме.

Если запрос связан с погодой, на странице с результатами будет представлен прогноз погоды, а не только ссылки на метеорологические сайты. Так же и с маршрутами проезда: помимо списка ресурсов, в ответ на запрос «Как добраться до аэропорта Казани» появится карта с нужной информацией. Это особенно важно для мобильных устройств, поскольку скорость работы Интернета на них зачастую невысока и переходы на другие сайты могут отнимать немало времени.

Оптимизацией алгоритмов и разработкой новых инструментов для поиска занимаются тысячи инженеров и ученых. Ниже представлены сведения о некоторых новшествах в Google Поиске. Это лишь примеры решений, направленных на увеличение его эффективности, ведь только в 2016 г. мы реализовали в нем около 1600 изменений.

  • Ответы из Сети знаний

  • Маршруты и пробки

  • Прямые ответы

  • Блоки с ответами

  • Расширенные списки

  • Результаты в нужный момент

Развитие вместе с Интернетом

Интернет непрерывно меняется. Каждое мгновение издатели публикуют сотни новых веб-страниц, и все эти изменения учитываются в результатах поиска Google. Чтобы индексировать новый контент, мы постоянно сканируем Интернет. Страницы на разную тематику обновляются с различной скоростью. Например, раздел с результатами спортивных соревнований зачастую обновляется ежесекундно, а страница со сведениями о видном историческом деятеле может оставаться неизменной в течение многих лет.

Каждый год Google предоставляет сведения по триллионам поисковых запросов. 15% запросов, которые ежедневно обрабатывает наша система, никогда ранее не использовались. Разработать алгоритмы Поиска, которые обеспечивали бы полезные результаты по таким запросам, не так просто. Для этого требуются регулярные проверки качества поиска, а также вложения средств.
Развитие вместе с Интернетом

5/5 - (2 голоса)