Google вынудили на суде рассказать о размере своего индекса

Аркадий Паровозов · 16 Дек 2023

Ранее Гугл почти никогда публично не освещал размер своего индекса - т.е. сохраненной цифровой записи страницы сайта, так как это довольно чувствительная информация. От нахождения в индексе зависит будет ли та или иная страница попадать в выдачу Гугла.

Но в результате перекрестного допроса вице-президента Google по поиску Панду Наяка, он сдал, что размер индекса составляет 400 миллиардов документов на 2020 год. Когда его спросили, вносил ли Google какие-либо изменения в размер индекса с 2020 года, Наяк ответил: « Я не знаю, произошли ли за последние три года конкретные изменения в размере индекса ».

Вывод №1: хотя 400 миллиардов не являются точным размером индекса, это, скорее всего, хорошая приблизительная цифра.

С одной стороны 400 млрд вроде бы и большая цифра, но нужно понимать, что уже сейчас в Интернете существует на несколько порядков больше страниц, чем размер индекса Гугла. Если прикинуть, то 400 млрд страниц – это всего 50-60 Википедий.

Благодаря исследованию размера индекса Google проведенному Кевином Индигом в 2020 году, можно проследить как он вырос с 1990-х годов. (обратите внимание, что многие из точек данных являются примерными. ) Из-за этого создается впечатление, что Google из года в год всегда увеличивает размер своего индекса. В действительности, как показали показания в суде, Google зачастую уменьшает размер своего индекса.

Вывод № 2: Google выкидывает все большее количество документов из индекса.

Как показал на суде упомянутый Наяк, большинство страниц бесполезны для пользователей и перечислил несколько факторов, влияющих на размер индекса Google:

1. Свежесть документов. Некоторые страницы в сети быстро меняются, другие важные страницы могут оставаться неизменными в течение многих лет. Задача, с которой сталкивается Google, заключается в оценке того, как часто страница может меняться, чтобы поддерживать ее индекс в актуальном состоянии без ненужного сканирования.

А для этого Гугл содержит в индексе несколько копий каждого документа (см статью «Гугл помнит все»).

2. Размер документа. Страницы сайтов становятся огромными, средний размер страниц со временем значительно вырос . Поскольку сканирование и обработка страниц стоит денег, это создает проблемы для индексации Google. Большие документы означают необходимость индексировать меньшее количество страниц.

3. Хранение метаданных. Google не только хранит каждый документ, но и создает огромное количество данных о каждом документе, включая все слова и понятия, относящиеся к каждому документу, расчеты тысяч факторов ранжирования. Постоянно объем метаданных увеличивается, что ограничивает размер индекса.

4. Стоимость индексации и обработки. Дата центры стоят огромных денег и потребляют много электроэнергии.

Выводы № 3: Google вынужден индексировать все меньший процент всех веб-страниц, которые он находит.

Как объяснил Наяк, цель индекса Google заключается не в полной записи всех документов, а в индексировании достаточного количества страниц, чтобы удовлетворить пользователей.

Это подтверждает то, на что Google публично намекал в течение многих лет: когда Google не индексирует страницу, он делает это потому, что не верит, что она будет полезна пользователям.

Google вынудили на суде рассказать о размере своего индекса

Пользователи онлайн