Как работает поисковая система Google: основные сведения

Как работает поисковая система Google

Статистические исследования подтверждают, что именно Google — наиболее известная и популярная поисковая система (ПС) во всем мире. Ежедневно более 5 миллиардов людей используют сервис для поиска информации, а значит при продвижении и раскрутке сайта стоит в первую очередь ориентироваться на него. Рассмотрим, как работает поисковая система «Гугл», кто ее изобрел, придумал ей название, и как она устроена.

История создания Google

Идея создания инструмента, который поможет людям находить нужную информацию в лабиринте гипертекстовых (через ссылки) сайтов, принадлежит двум аспирантам знаменитого Стэнфордского университета — американцу Лоуренсу Э. Пейджу и россиянину Сергею Брину. Они сообща изобрели ИТ-инструмент, который автоматически, но в соответствии с хорошо продуманными правилами, давал сайтам в интернете числовые значения, которые служили мерой их качества.

Созданный алгоритм сначала назывался BackRub, потому что его работа была основана на подсчете так называемых обратных ссылок — своеобразных интернет-указателей, которые связывают один определенный сайт с другими внешними веб-ресурсами, содержащими ссылки на этот сайт. Правило было простым, но оказалось блестящим: значимость той или иной страницы оценивалась от количества страниц, которые на нее ссылаются.

Основатели Google Ларри Пейдж и Сергей Брин

Пользователям не понравилось имя BackRub, поэтому Пейдж и Брин изменили его на PageRank и 9 января 1998 года подали заявку на патент под этим именем. Им был выдан патент (US6285999), но он принадлежал...Стэнфордскому университету, а не молодым изобретателям.

В скором времени Пейдж и Брин быстро осознали огромный деловой/коммерческий потенциал своего изобретения. 4 сентября 1998 года они основали компанию. Интересен тот факт, что известное во всем мире название Google возникло в результате недоразумения.

Ошибка в названии

Многие пользователи системы Google полагают, что название произошло от слова «очки». Так называются очки, которые используются при плавании, катании на мотоцикле или лыжах, поэтому отношение к Google как к очкам для просмотра интернета — вполне естественная ассоциация. Хотя на английском языке такие очки называются goggles, довольно распространено мнение, что написание слова было изменено, чтобы подчеркнуть ссылку на очки двумя соседними буквами «o». Так это трактуется на некоторых рисунках. Однако это заблуждение.

В 1997 году при поиске названия для своего браузера (все еще называемого BackRub) Пейдж и Брин обратили внимание на слово «гугол». Это имя собственное для очень большого числа, например, миллиарда или триллиона, но гугол — гораздо большее число, записанное как единица и сто нулей. Позднее в рекламной кампании было заявлено, что оно было выбрано, чтобы показать, что поисковая система хочет обеспечить людей большим количеством информации.

Пейдж подумал, что эта нестандартная, слегка заумная концепция является отличным названием для технической компании и попросил своего соседа по комнате Шона Андерсона проверить слово «googol» в реестре доменных имен. Тот, в свою очередь, при проверке ошибочно ввел в поле поиска «Гугл» вместо «Гугол». Так, 15 сентября 1997 года было зарегистрировано доменное имя Googol.

Статья по теме: Что такое домен и как его подобрать

На следующее утро подруга Пейджа Тамара Мунцер заметила ошибку. Но попытка изменить зарезервированное имя на Googol не удалась, поскольку оказалось, что это имя ранее было зарегистрировано другим пользователем.

Первые шаги новой компании

В 1997 году, когда Google еще не существовал, браузер PageRank начал работать локально на серверах Стэнфордского университета на домене google.stanford.edu. Пейдж и Брин понимали, что Stanford University пользуется плодами их успеха и пора бы отправиться в свободное плавание. В августе 1998 года им на помощь пришел Энди Бехтольшейм, соучредитель Sun Microsystems, который первым инвестировал в компанию Google 100 000 американских долларов, что в итоге оказалось весьма выгодным и очень хорошим вложением.

Компания Google была зарегистрирована, как упоминалось выше, 4 сентября 1998 года и зарегистрирована в Менло-Парке, Калифорния. Сайт google.com был запущен 27 сентября, поэтому каждый год 27 сентября Google отмечает свой «день рождения». Как и многие компании в ИТ-индустрии, Google родился в гараже. Первой штаб-квартирой компании, в распоряжении которой сегодня впечатляющие офисные здания, был гараж, принадлежавший подруге основателей Сьюзен Воджиски. В этом гараже располагались компьютеры с программным обеспечением для обслуживания и стол для пинг-понга. На полу был застелен голубой ковер. Страсть Google к экстравагантным цветам сохраняется и по сей день.

Как работает поисковая система Google

Во многих случаях поисковому запросу пользователя соответствуют миллионы страниц. Чтобы упорядочить предоставление информации и показать наиболее подходящие результаты, используются принципы ранжирования — сортировка, которая проводится поисковыми машинами при составлении выдачи по определенному запросу. При этом каждому сайту присваивается определенный ранг, согласно которому страница и показывается в общем списке.

Статья по теме: Что такое ранжирование и какие существуют факторы ранжирования

Алгоритмы Google основаны на последовательном выполнении нескольких взаимосвязанных процессов — сканировании и индексации страниц, а затем их отображении с учетом релевантности и персонализации.

Для справки, следует отметить, что Google — не единственная поисковая система. Пользователи русскоязычной части интернета охотно выбирают «Яндекс», у чехов есть Sesame, а поисковая система Baidu очень популярна в Китае. Microsoft предлагает альтернативу в мире поисковых систем в виде Bing.

А теперь вернемся к алгоритмам поисковой системы «Гугл», которые определяют позиции сайта в поисковой выдаче. Именно алгоритмы отвечают за критерии, по которым создается «рейтинг-лист» сайтов. По сути, поисковый алгоритм — это совокупность определенных признаков, благодаря которым роботы поисковиков определяют место сайта в выдаче. В случае поисковой системы Google алгоритм создает более 200 параметров, и их полный список является одним из самых тщательно охраняемых секретов.

Алгоритм Google не является постоянным. Время от времени он обновляется, чтобы представлять результаты, наиболее точно соответствующие запросам пользователей поисковой системы. Следовательно, поисковая выдача Google после внедрения обновлений может измениться и вы больше не увидите свой сайт в топе. На текущий момент Google выпустил четыре основных обновления поискового алгоритма:

  • Panda (панда)
  • Penguin (пингвин)
  • Hummingbird (колибри)
  • Pigeon (голубь)

Новые функции в алгоритме могут, например, трансформироваться в изменения в оценке текущего профиля ссылок для определенного сайта или в критериях, важных в случае ранжирования в целом. Изменения в алгоритме также могут быть шансом на «помилование» сайтов, которые подвергаются наказанию со стороны поисковика (так называемые алгоритмические фильтры Google).

Сканирование страниц Google-ботами

Разработчики «Гугл» предусмотрели специальных виртуальных ботов (так называемых краулеров), которые занимаются сканированием страниц или краулингом. Краулинг — это процесс обнаружения и сбора новых страниц для добавления в индекс поисковых систем, а также обновления информации о тех страницах, которые уже проиндексированы.

Основой для сканирования выступает файл sitemap.xml, позволяющий поисковикам определить местонахождение страниц сайта, время их последнего обновления, частоту обновления и важность относительно других страниц. Фактически, файл Sitemap помогает сообщить поисковой системе Google об актуальной структуре сайта, чтобы та могла быстро найти любую страницу сайта, совершая минимальное число переходов.

Краулер учитывает настройки на сайте и обрабатывает те страницы и ссылки, которые допущены к индексации. Например, директива Disallow отвечает за запрет индексирования, Allow, напротив, допускает роботов к проверке сайта, указанных разделов или отдельно взятых страниц. Тем не менее, даже если запрет на индексацию определенной страницы прописан в файле robots.txt, она все равно может просочиться в результаты выдачи Google. Поэтому для более надежного закрытия от индексации предпочтительнее добавить в HTML-код страницы атрибут noindex.

Индексирование сайтов в поисковой системе Google

Чтобы сайт отображался после ввода соответствующего запроса в поисковой выдаче, он должен быть в индексе Google. Соответственно, после того как GoogleBot просканирует страницы, осуществляется добавление информации в поисковую базу: контент классифицируется по ключевым словам и заголовкам.

Читайте также: Как использовать ключевые слова

В поисковый индекс «Гугл» включены сотни миллиардов страниц, которые весят более ста миллионов гигабайт. Индекс обновляется постоянно и в него попадают все просканированные страницы, а вот в выдачу по запросу — только те, которые соответствуют рекомендациям для веб-мастеров, т. е. самые качественные по мнению Google.

Чтобы сообщить «Гугл» о существовании вашего сайта и ускорить его индексирование, создайте файл Sitemap, добавьте на него ссылку в robots.txt и отправьте файл Sitemap в Google Console.

Еще один способ — воспользоваться инструментом «Проверка URL», который также можно найти в свободном доступе в панели вебмастеров от Google. Для этого достаточно выбрать вкладку «Проверка URL», вставить в поле поиска ссылку на URL-адрес и нажать кнопку «Enter».

Проверка URL в Google Search Console

После проверки, которая занимает, как правило, менее одной секунды, вы сможете ознакомиться с информацией и запросить индексирование URL.

Запросить индексирование URL

В отдельных случаях после отправки запроса URL попадает в индекс спустя несколько минут, но в целом, времени требуется больше.

Отправлен запрос на индексирование

Чтобы проверить, есть ли страница в индексе, можно воспользоваться тем же инструментом от Google или ввести в поле поиска адрес так, как указано ниже:

site: проверяемый URL

Если страница найдена, значит она есть в индексе.

Выделяют три причины, по которым страница не была включена в индекс поисковой системы:

  • Первая причина — это содержимое файла robots.txt, который может включать команды, запрещающие индексацию. Решение состоит в том, чтобы изменить содержимое данного файла, указав директиву Allow вместо Disallow для всего сайта или тех разделов, которые нужно проиндексировать, а затем сообщить об изменении с помощью консоли для вебмастеров Google.
  • Вторая причина — штрафные санкции от Google (так называемый фильтр, пессимизация или бан). Такой штраф может затруднить или напрямую помешать продвижению сайта. Наиболее серьезные нарушения могут означать безвозвратное удаление сайта из индекса поисковой системы. В такой ситуации наиболее разумным решением будет создание нового сайта на новом домене.
  • Третья относительно распространенная причина, по которой веб-проект не отображается в поисковой системе, — это проблема с его правильной работой. Сайт, у которого есть проблемы с функционированием (причины могут быть разными — от взлома до банальной неуплаты хостинга), может быть исключен из результатов поиска до тех пор, пока проблема, являющаяся источником запрета, не будет решена. После ремонта или восстановления стоит сообщить об этом в Google, сделав соответствующее уведомление с помощью Google Search Console.

Читайте также: Что такое пессимизация сайта

Факторы ранжирования Google

Повторимся, что алгоритм Google использует более 200 факторов ранжирования. Вот, пожалуй, 20 самых существенных из них:

  • Возраст сайта/домена.
  • Ключевые слова в заголовке (title) страницы.
  • Тег заголовка (title) начинается с ключевого слова.
  • Ключевое слово в теге описания (Description).
  • Ключевые слова в заголовке H1.
  • Ключевые слова в тегах H2 и H3.
  • Ключевые слова в содержании текстового контента.
  • Объем контента и экспертность контента.
  • Частота обновления, актуализации текстовых материалов.
  • Оптимизация изображений (ключевые слова в атрибуте alt; сжатие, уменьшение размера).
  • Уникальность контента.
  • Использование канонических ссылок.
  • Внутренние ссылки в навигации.
  • Внутренняя перелинковка.
  • Общее число ссылок с иных доменов.
  • Общее число ссылающихся страниц.
  • Количество исходящих ссылок.
  • Тематичность исходящих ссылок.
  • Скорость загрузки страницы.
  • Адаптация к мобильным устройствам.

Итог

Поисковая система Google — это самая популярная поисковая система в мире, которую предпочитают миллиарды пользователей. Ежесекундно в поле поиска вводится десятки тысяч запросов, наиболее релевантные из которых должны соответствовать самым весомым факторам ранжирования, а также персонализации (индивидуальным параметрам конкретного пользователя (местонахождение, приоритеты, интересы, часто просматриваемый контент/сайты, поведение в сети в целом)).

сообщить об ошибке

Обнаружили в тексте грамматическую ошибку? Пожалуйста, сообщите об этом администратору: выделите текст и нажмите сочетание горячих клавиш Ctrl+Enter

 

Понравилась статья? Угостите админа шаурмой и кофе.
PayPal logo

Добавить комментарий