Пример технического аудита сайта


Веселая картинка ;)

Добрый день, дорогие друзья! Сегодня мы научимся проводить детальный технический аудит сайта на примере. Технический аудит подразумевает оценку сайта именно с технической стороны (поиск и исправление битых ссылок, поиск и удаление одинаковых тайтлов, страниц с большим временем отдачи и многое другое). Технический аудит – не менее важный этап, чем составление семантического ядра.

 

Пример технического аудита сайта

 

Во время продвижения сайта порой могут возникать досадные трудности, такие как вылетание страниц из индекса, неправильное определение поисковыми машинами релевантной страницы, наложение фильтров и многое другое. Чтобы минимизировать возможности возникновения таких проблем, необходимо основательно подготовиться к продвижению сайта еще на самых ранних этапах. Очень важен правильный технический аудит сайта. Данное мероприятие необходимо проводить перед продвижением любого сайта. Сегодня мы вместе с вами проведем подробный технический аудит одного из моих сайтов – EltisBOOK.

 

Технический аудит сайта: подготовительный этап

 

Для начала, давайте определимся с тем, что же нам понадобится для проведения аудита. А понадобятся нам всего 3 вещи:

 

  1. сам сайт
  2. программа Xenu (абсолютно бесплатная)
  3. Exel

 

Вот и все. Скачать программу xenu вы можете с моего блога по ссылке. Стоит сразу предупредить, что технический аудит сайта – невероятно важное мероприятие, поэтому вам придется быть очень внимательными во избежание возможности упустить важные технические моменты.

 

Технический аудит сайта: начальный этап

 

Сегодня мы сделаем технический аудит сайта на примерах. Первым делом, запускаем программу xenu и переходим во вкладку Options – > Preferences, где устанавливаем количество параллельных потоков равное 2м (parallel Threads), как это показано на изображении:

 

Одновременные потоки

 

Далее переходим во вкладку File -> Check URL… и вводим адрес проверяемого сайта в соответствующее поле, как это показано на скриншоте:

 

 

Адрес проверяемого сайта

 

Нажимаем OK и ждем. Время проверки будет зависеть только от самого сайта и количества страниц. Как правило, проверка занимает от 10-ти минут до нескольких часов. Процесс достаточно затяжной, но ничего страшного… Программа работает аналогично пауку поисковых систем – ищет все возможные документы и связи между ними. После завершения работы мы получаем достаточно подробный отчет, откуда совсем несложно идентифицировать битые ссылки, несуществующие документы и многое другое.

Итак, моя проверка уже прошла и было обнаружено около  200 неправильных переходов:

 

Битые ссылки 1

 

Ну тут  все просто:

 

  1. Банально недоступный раздел сайта. Ссылка с  Miralinks, поэтому оставим ;)
  2. Нет связи с сервером. Тоже все просто.
  3. Неверная ссылка
  4. Неверное построение URL. Сайт работает без CMS, создавался на голом PHP. Проблема в построении ссылок в дримвивере. Исправляется за 2 минуты.
  5. Аналогично пункту 4

 

 

Битые ссылки 2

 

 

6. Таже самая проблема дримвивера. Необходимо просто указать абсолютные адреса.

7. Аналогично

8. Мой косяк. При вставке не убрал один слэш ;)

 

Все ошибки во внутренних ссылках, которые вы видите выше я исправил примерно за 20 минут. Идем дальше. Если смореть по списку ниже, то мы обнаружим список неисправных переходов, отсортированных по названию страницы. В этом списке я обнаружил один неверный переход. Все дело было в том, что в названии страницы был указан иной URL, нежели в самих ссылках, исправил за 10 сек. Далее программа выдает нам полностью готовый сайтмап:

 

карта сайта

 

Использовать эту карту сайта вы можете по своему усмотрению.

Разобраться в отчете совсем не сложно, а мы разобрали основные аспекты. Переходим к более важным вещам.

 

Технический аудит сайта пример

 

Теперь нам необходимо вытащить табличный отчет из программы xenu.  Для этого нажимаем  File -> Export to TAB separated file…

Называем его как хотим и выводим в формате txt. Открываем этот файл в Exel и в первом появившемся окне выбираем кодировку 1251, как на скриншоте:

 

Кодировка 1251

 

Затем все время нажимаем далее, пока не появится надпись готово, на которую мы и жмем.

Перед нами появляется следующая картина. Подсвеченные поля удаляем:

 

Таблица Exel

 

Говоря проще, удаляем поля Status-Code, Date, Server, Duration и Charset. Сдвигаем ячейки таблицы в образовавшиеся пустоты и наша таблица принимает прилежный и наглядный вид.

Вся последующая работа состоит из нескольких этапов:

 

  1. отсеиваете все страницы по статусу и выясняете причины возникновения ошибочных статусов
  2. отсеиваете страницы по весу и стараетесь избавиться от файлов, имеющих очень большой вес
  3. отсеиваете страницы по Title и ищите одинаковые
  4. Отсеиваете страницы по уровню вложенности и выясняете причину высоких уровней (4 и более), по возможности стараетесь от них избавиться
  5. отсеиваете страницы по количеству исходящих ссылок. По возможносте стараетесь избежать чисел, превышающих 200 – 300

и т.д.

Следующим шагом мы попробуем идентифицировать некоторые проблемы сайта.

 

Проверяем ипроиндексированность сайта

 

На данном этапе мы попробуем определить проблемы с проиндексированностью страниц нашего сайта. Для начала, определим реальное количество страниц нашего сайта. Для этого, сортируем всю таблицу Exel по названию страниц. Когда страницы отсортировались, выделяем только страницы нашего домена и копируем 3 поля: Address, Status-Text и Type, в новую таблицу:

 

новая таблица

 

Отсортируем полученные результат по типу документа (третий столбец). И скопируем документы с типом text/html в новую таблицу. Все! Теперь мы знаем реальное число страниц проверяемого сайта. В моем случае, это число равно 307. Теперь, давайте проверим, сколько же страниц находится в индексе ПС:

 

Яндекс:

В поле поиска вводим оператор – site:www.eltisbook.ru

Вместо www.eltisbook.ru  вставите адрес своего сайта. По версии Яндекса, у моего сайта в индексе 258 страниц – хороший результат.

Гугл:

В поле поиска вводим оператор – site:www.eltisbook.ru

Вместо www.eltisbook.ru  вставите адрес своего сайта. По версии гугл, у моего сайта в индексе 309 страниц – хороший результат.

 

А теперь, давайте рассмотрим возможные ситуации, которые могут возникнуть при проверке проиндексированных страниц:

 

  • В индексе ПС страниц больше, чем на самом деле (порой это число может быть в 10-ки раз больше, чем реальное число страниц) – самый худший вариант, которые говорит о том, что некоторые страницы ушли в дубль, что скорее всего, привело к санкциям ПС. Исправление данной ситуации достаточно долгое и проблемное занятие. Для начала, необходимо определить, какие именно страницы ушли в дубль. Для этого необходимо разбить сайт на кластеры по разделам, например раздел создание сайта, продвижение сайта и т.д. и еще раз провести проверку, но только внутри каждого отдельного кластера. Выглядеть это будет следующим образом:Я: www.eltisbook.ru/sait/
    Г: www.eltisbook.ru/sait/

    Обе ПС нашли по 14 страниц в заданном разделе. Реальное же число страниц в заданном разделе тоже составляет 14. Тоесть все отлично. Неспеша, постепенно, вы определите тот кластер, страницы которого ушли в дубль. Для интернет-магазинов это чаще всего бывают страницы товаров, категорий и страницы корзины. После того, как вы определите кластер, страницы которого ушли в дубль, необходимо закрыть их от индексации в роботс. Закрывать в роботс необходимо по маске.

  • В индексе ПС объем страниц равен реальному числу. Идеальная ситуация, которая встречается крайне редко.
  • В индексе ПС страниц меньше, чем их есть на самом деле. Если разница превышает 100% то это уже серьезные проблемы с индексацией сайта. Если разница не превышает 10%, то в принципе, не о чем беспокоиться, хотя можно просто добавить страницы, которые не в индексе в аддурилку и создать подробный сайтмап. Ну а если разница между реальным и проиндексированным числом страниц очень велика, то это скорее всего фильтры, наложенные поисковыми системами. Например, ПС может накладывать фильтр на страницы с одинаковым Title. Возможно, ваша проблема именно в этом?

 

Думаю, что руководство было достаточно подробным. Чтобы не пропустить ни одной новой статьи, просто получайте их на почту. Если некоторые аспекты данного руководства показались вам не совсем понятными – задавайте свои вопросы в комментариях.

 

Понравился пост?
Затвить его!

Подписки

И подпишись на обновления:
Через RSS или на e-mail

 

Лучший способ продвижения сайта

К записи оставлено 22 коммент.

Спасибо, отличная программа xenu и цены бы ей не было, выдавай она более визуально понятные отчеты. А то приходится себя чуть ли не палкой заставлять копаться во всей этой куче данных.

Возьмите палку побольше и все у вас получится :-D

Просто отлично, про такую прогу впервые слышу но благодаря этому посту, уже знаю что к чему. Спасибо.

Согласен, прога просто замечательная!

прога 100% полезная буду искать и разбираться с ней

не все так просто для меня, попробую разобраться, спасибо за ваш труд!

На самом деле – ничего сложного тут нет, главное взять палку побольше (первый комментарий :-D ) и все получится!

Программа очень интересная и полезная. А автор – просто молодец, что так подробненько на примере все рассказал. Огромное спасибо!

Всегда рад помочь.

Интересен тот факт, что программа очень стара и совершенно бесплатна, но о ней мало кто знает!

мега прога

Про прогу ничего раньше не слышал, но давно искал нечто подобное. Теперь дело за малым – разобраться и использовать!

А не лучше ли сейчас, дублированные страницы помещать в rel=»canonical»? =)

Нравится Ваш блог, перечитываю , потому что процентов на 50 не все понимаю, но очень стараюсь =)
За программку отдельное спасибо

Антон,если можно ,для полных чайников,сделай пошаговую расшифровку.Если честно, Xenu запустил, ошибки прога мои показала и приплыли.Как конкретно исправлять эти ошибки и где?

Разберем ситуацию с битыми ссылками. Показала Ксену битые ссылки и страницы, с которых эти ссылки проставлены (чтобы получить отчет не забудьте после того, как сработает программа нажать OK, во втором окне – Cancel).

Далее мы видим те страницы, откуда стоят битые ссылки и исправляем их через админку, если сайт на движке или в коде, если сайт без движка.

С дублями страниц все НАМНОГО сложнее. Тут уже необходимо понять, откуда эти дубли берутся, а причины у каждого отдельного сайта могут быть свои. Например недавно убирал дубли у свадебного интернет магазина – там причиной был модуль карты сайта для Joomla, который ставил одну ссылку на главную страницу вида http://www.домен.ru/home/

После перехода по этой ссылке полностью перестраивалась вся структура URL и каждая страничка получала префикс /home/ ввиду чего КАЖДАЯ страница сайта получила по дублю.

Вот так то =)

Добрый день, наткнулся на ваш блог и сразу в закладки его занес – хорошо пишите. А теперь, собственно, вопрос. Я скачал программу xenu и прогнал один из своих сайтов. Программа показала ошибки, но я не совсем понял что они означают. Например:

http://site.ru/?cat=3/page/43/
error code: 404 (not found), linked from page(s):
http://site.ru/?cat=3&paged=43

Что это значит? Что сама ссылка http://site.ru/?cat=3/page/43/ – битая, или что на этой странице есть битая ссылка? Я нажимаю в отчете на эту ссылку и у меня загружается страница, которая там и должна быть. Что программа имеет ввиду?

То что на этой странице (вторая ссылка) есть битая ссылка – первая

Ни у кого раньше не встречал описания этой программы. Полезная вешь. Уже час читаю этот блог, столько всего интересного.
При сканировании Xenu, в Касперском иногда всплывают предупреждения о загрузке опасных объектов, которые он запрещает. Может на время проверки отключать антивирус? Влияет ли это на правильность полученных данных?

Каспер бредит; ) Вырубайте.

У меня на работе тоже Каспер последней версии – молчит в трубочку)

Кстати!!!!! Возможно у вас на сайте вирус?! Тогда вполне естественно, что в индексе Яндекс 0 страниц и то, что Каспер орет!!

Нет, я сканировал нормальный сайт с хорошей индексацией. А Каспер делал предупреждения именно на то, что программа пытается что-то там открыть и проверить.
Для него же все программы без цифровой подписи подозрительные… На всякий случай проверю на вирусы.

У меня на работе стоит Каспер самый новый и на Ксену не бычит ;)

Не забудьте оставить комментарий

Блог Markintalk

Маркин Антон

На этом блоге вы найдете множество информации по поисковому продвижению сайтов: руководства для начинающих, ответы на вопросы, SEO эксперименты, разбор ошибок, примеры удачных проектов, вышедших в ТОП и многое другое...

Продвижение сайтов в ТОП - увлекательный процесс, который давно уже превратился для меня из хобби в профессию и неплохой источник дохода. В рамках своего блога я буду выкладывать наблюдения за поведением поисковых систем, описывать свой опыт продвижения в конкурентных тематиках и давать рекомендации своим читателям.

Не пропустите ни одной статьи блога, подписавшись на e-mail

Последние записи

Популярное на блоге

Разделы блога