Повышение эффективности SEO IPS 4.6.8

Независимо от того, насколько хорош ваш контент, насколько точны ваши ключевые слова или насколько точны ваши микроданные, неэффективное сканирование уменьшает количество страниц, которые Google будет читать и сохранять с вашего сайта.

Поисковые системы должны просматривать и хранить как можно больше страниц, существующих в Интернете. В настоящее время насчитывается около 4,5 миллиардов активных веб-страниц. Это большая работа для Google.

Он не может просматривать и хранить каждую страницу, поэтому ему нужно решить, что оставить и сколько времени он будет проводить на страницах индексации вашего сайта.

В настоящий момент сообщество Invision не очень хорошо помогает Google понять, что важно и как к этому быстро добраться. В этой статье блога рассматриваются изменения, которые мы внесли для значительного повышения эффективности сканирования, начиная с версии Invision Community 4.6.8, нашей ноябрьской версии.

Краткая версия
Краткая версия заключается в том, что мы удаляем много страниц из поля зрения Google, включая профили пользователей и фильтры, которые создают фасетные страницы и удаляют множество перенаправляющих ссылок, чтобы уменьшить глубину сканирования и уменьшить объем малоценного тонкого контента. Вместо этого мы хотим, чтобы Google полностью сосредоточился на темах, сообщениях и другом ключевом пользовательском контенте.

Давайте теперь глубоко погрузимся в то, что такое краулинговый бюджет, текущую проблему, решение и, наконец, рассмотрим анализ до и после. Обратите внимание: мы используем термины «Google» и «поисковые системы» как синонимы. Мы знаем, что существует множество замечательных поисковых систем, но большинство из них понимают, что такое Google и что делает.

Глубина сканирования и бюджет
С точки зрения эффективности сканирования необходимо учитывать два показателя: глубина сканирования и бюджет сканирования. Бюджет сканирования - это количество ссылок, которые Google (и другие поисковые системы) будет передавать в день. Время, проведенное на вашем сайте, и количество проверенных ссылок зависят от множества факторов, включая возраст сайта, его актуальность и многое другое. Например, Google может выбирать менее 100 ссылок в день с вашего сайта, тогда как Twitter может видеть сотни тысяч ссылок, индексируемых в день.

Глубина сканирования - это, по сути, количество ссылок, по которым Google должен пройти, чтобы проиндексировать страницу. Чем меньше ссылок на страницу, тем лучше. Вообще говоря, Google сократит индексирование ссылок более чем на 5-6 кликов в глубину.

Проблема №1: глубина сканирования
Сообщество генерирует много связанного контента. Многие из этих ссылок, такие как постоянные ссылки на определенные сообщения и перенаправления для прокрутки к новым сообщениям в теме, очень полезны для зарегистрированных участников, но в меньшей степени для пауков. Эти ссылки легко обнаружить; просто найдите в URL-адресе «& do = getNewComment» или «& do = getLastComment». В самом деле, даже гостям было бы сложно использовать эти удобные ссылки из-за отсутствия непрочитанного отслеживания до тех пор, пока они не войдут в систему. Хотя они не дают явных преимуществ для гостей и поисковых систем, они плодовиты, и переход по ссылкам приводит к перенаправлению, которое увеличивает глубину сканирования. для содержания, такого как темы.

Проблема №2: бюджет
На одной странице профиля пользователя может быть около 150 перенаправляющих ссылок на существующий контент. Профили пользователей связаны со многих страниц. На одной странице темы будет около 25 ссылок на профили пользователей. Это потенциально 3750 ссылок, которые Google должен просканировать, прежде чем решить, следует ли сохранять какую-либо из них. Даже на сайтах со значительным бюджетом сканирования большая часть их бюджета будет съедена ссылками, которые не добавляют ничего нового в поисковый индекс. Эти ссылки также находятся очень глубоко на сайте, увеличивая общую среднюю глубину сканирования, что может сигнализировать поисковым системам о необходимости сократить ваш бюджет сканирования.

Фильтры - ценный инструмент для сортировки списков данных определенным образом. Например, при просмотре списка тем вы можете фильтровать по количеству ответов или времени создания темы. К сожалению, эти фильтры представляют собой проблему для поисковых систем, поскольку они создают фасетную навигацию , которая создает дублирующиеся страницы.

Решение
Существует простое решение для решения всех проблем, описанных выше. Мы можем попросить Google избегать индексации определенных страниц. Мы можем помочь, используя сочетание подсказок и директив, чтобы гарантировать, что страницы без ценного контента игнорируются, и уменьшив количество ссылок для перехода к контенту. Раньше мы использовали noindex, но это все еще съедает бюджет сканирования, поскольку Google должен сканировать страницу, чтобы узнать, что мы не хотим, чтобы она сохранялась в индексе.

К счастью, у Google есть подсказка под названием «nofollow», которую вы можете применить в коде <a href>, который является оболочкой для ссылки. Это явный намек на то, что эту ссылку вообще не следует читать. Однако Google может пожелать следовать ему в любом случае, а это означает, что нам нужно использовать специальный файл, который содержит твердые инструкции для Google о том, чему следовать и индексировать.

Этот файл называется robots.txt. Мы можем использовать этот файл для написания правил, чтобы поисковые системы не тратили свое драгоценное время на поиск ссылок, не имеющих ценного содержания; которые создают многогранные проблемы с навигацией и ссылки, ведущие к перенаправлению.

Сообщество Invision теперь создаст динамический файл robots.txt с правилами, оптимизированными для вашего сообщества, или вы можете создать собственные правила, если хотите.

Новый генератор robots.txt в сообществе Invision

Анализ: до и после
Мы сделали тестовое сканирование с помощью популярного инструмента аудита сайта SEO моего тестового сообщества с 50 участниками и около 20000 публикаций, большинство из которых были заполнены из RSS-каналов, поэтому у них есть фактический контент, включая ссылки и т. Д. гости могут видеть примерно 5000 тем.

После того, как я внес изменения «nofollow», удалил множество ссылок перенаправления для гостей и добавил оптимизированный файл robots.txt, я выполнил еще одно сканирование.

Давайте сравним данные до и после.

Во-первых, необработанные числа показывают резкую разницу.

До наших изменений инструмент аудита сканировал 176 175 ссылок, из которых почти 23% были ссылками с переадресацией. После этого было просканировано всего 6 389 ссылок, из которых только 0,4% были ссылками перенаправления. Это резкое сокращение как бюджета сканирования, так и глубины сканирования. Просто уводя Google от тонкого контента, такого как профили, списки лидеров, онлайн-списки и ссылки переадресации, мы можем попросить его сосредоточиться на контенте, таком как темы и сообщения.

Примечание. Вы можете заметить значительное уменьшение значения «Заблокировано Robots.txt» при сканировании «после», несмотря на то, что файл robots.txt используется впервые. Расчет здесь также включает в себя изображения участников и другие внешние ссылки, которые блокируются файлами robots.txt этих сайтов. Я добавил nofollow к внешним ссылкам для сканирования «после», чтобы они не извлекались и не блокировались извне.

Как мы видели ранее, глубина сканирования имеет низкий пик между 5 и 7 уровнями глубины и сильный пик на уровне 10+.

После этого пиковая глубина сканирования составит всего 3. Это станет сильным сигналом для Google о том, что ваш сайт оптимизирован и его стоит сканировать чаще.

Давайте посмотрим на визуализацию сканирования, прежде чем вносить эти изменения. Легко увидеть, как большая часть контента была найдена с помощью фильтров таблицы, что привело к перенаправлению (красные точки), резко увеличив глубину сканирования и снизив эффективность сканирования.

Сравните это с последующим, которое показывает гораздо более упорядоченное сканирование, при котором весь контент обнаруживается, как и ожидалось, без каких-либо красных точек, указывающих на перенаправления.

Заключение
SEO - это многогранная дисциплина. В прошлом мы были сосредоточены на том, чтобы отправлять правильные заголовки, использовать правильные микроданные, такие как JSON-LD, и оптимизировать метатеги. Все это жизненно важные части обеспечения оптимизации вашего сайта для сканирования. Однако, как мы видим в этом блоге, без акцента на бюджете сканирования и эффективности сканирования, даже наиболее точно представленный контент будет потрачен впустую, если он не будет обнаружен и добавлен в поисковый индекс.

Эти простые изменения предоставят значительные преимущества тому, как Google и другие поисковые системы будут сканировать ваш сайт.

Функции и изменения, описанные в этом посте, будут доступны в ноябрьском выпуске, которым будет Invision Community 4.6.8.

Было ли это полезно?