Не удалось обработать файл sitemap общая ошибка http

Cправка — Search Console

Войти

Справка Google

  • Справочный центр
  • Сообщество
  • Search Console
  • Политика конфиденциальности
  • Условия предоставления услуг
  • Отправить отзыв

Тема отзыва

Информация в текущем разделе Справочного центра

Общие впечатления о Справочном центре Google

  • Справочный центр
  • Сообщество

Search Console

В последнее время все чаще встречается ошибка при обработке файла Sitemap в Google. В интерфейсе Google Search Console отображается статус “Не получено” и комментарий — «Не удалось обработать файл Sitemap»

Варианты решения

  • В таком случае кто-то рекомендует подождать, иногда помогает, и через 2-3 недели статус меняется на “Успешно”. Но есть и обратные кейсы, когда прошел год, а сайтмап так и висит в ошибках.

  • Так же, иногда помогает принудительная отправка на Sitemap на переобход, по ссылке: https://www.google.com/ping?sitemap=https://ваш-сайт.ru/sitemap.xml

  • Если сайт не большой, то можно отправить страницы на переобход вручную через Google Search Console. Лимит на отправку 10-15 страниц в сутки
  • Так же можно использовать функционал Google Indexing Api для отправки страниц на индексацию. Стандартные лимиты на 1 проект 200 отправок URL в сутки.

  • Если вам нужно больше отправок в день и вы далеки от программирования и тонкостей настройки Api, можно воспользоваться сервисом Fast Indexing. Это сервис ускоренной индексации в Google с лимитами от 2 000 URL в сутки.

    Есть промокод на тестирование сервиса “indexing” дает скидку в 500 руб при первой оплате.

Реальный пример

Для примера мы взяли сайт, интернет-магазин запчастей, на движке AdvantShop. На сайте около 5000 страниц товаров, из них в индексе Google было всего 35 страниц, в Sitemap ошибка “Не получено”.

28 мая страницы сайта были отправлены на индексацию через сервис Fast Indexing, и уже через 2 дня, в индекс зашло 2869 страниц, на 22 июня в индексе уже 4140 страниц.

Вывод

В текущих условиях, эффективнее сразу отправлять страницы напрямую в индекс, для того, чтоб сайт сразу начал получать трафик из Google. И уже после этого, по возможности, искать причину и устранять ошибки Sitemap.

В последнее время участились случаи когда Google отказывается принимать сайтмап длительное время.

В данном случае попробую расписать основные причины. Их можно разделить на 2 категории: ошибки на сайте и глюки новой гугл-консоли.

Чаще всего сопровождаются сообщениями:

Не получено – не удалось получить файл Sitemap

Первые действия

  • Убедитесь что сайтмап открывается в браузере и время открытия менее 10сек.
  • Необходимо подождать определенное время. Если краулинговый бюджет сайта израсходован, сразу индексация сайтмапа не пройдет, ожидайте от 1 до 10 дней.
  • Воспользуйтесь инструментом «Проверка URL» для анализа индексации сайтмапа и запроса на приоритетное сканирование (скрин ниже).
  • Отслеживайте по логам, обращался ли GoogleBot к сайтмапу.

Проверка сайтмапа

К сожалению гугл убрал инструмент проверки сайтмапа в новой Search Console. На данный момент такую возможность дает только Яндекс.

В Google можно проверить статус URL и ускорить индексацию единственным способом:

Ошибки на сайте

Ошибки загрузки

  • Сайтмап недоступен или генерируется с ошибками — Проверьте в браузере и используя сервис от Яндекс
  • Проблема с зеркалами сайта WWW/HTTPS — Сам сайтмап и содержимое должны принадлежать главному зеркалу
  • Сайтмап запрещен к индексации в robots.txt — Разрешите используя оператор «Allow:» в конце списка
  • Сайтмап отдается слишком долго (больше 15с)

Ошибки содержимого

  • Адресация в сайтмапе и на сайте отличается либо большое кол-во адресов с редиректами
  • В адресах используются спецсимволы — используйте только латинские буквы (a-z), цифры и тире (-)
  • Несоответствие стандарту XHTML, как правило не заменено & на &аmр;
  • Имеются пробелы в начале, либо кодировка отличная от UTF-8 (без BOM)

Глюки новой Google Search Console

Иногда возникают проблемы при следующих ситуациях

  • Кириллический домен (именно доменная зона) или новая доменная зона (.top, .moscow, …) (под вопросом) как выяснилось не работает только .рф, а например .бел и .укр работают
  • Использование знаков подчеркивания «_» в адресе сайтмапа — есть сообщения что замена на тире решила проблему
  • Заголовок «content-type: application/xml» — есть сообщение что замена на «text/xml«, «text/xml; charset=UTF-8«, «application/rss+xml; charset=UTF-8«, либо полностью убранный заголовок решили проблему
  • Используется gzip-сжатие — уберите сжатие для xml, это никак не повлияет на оценки Google Page Speed, т.к. на страницах сайта xml в 99.99% не грузится
  • Сложная структура адреса сайтмапа — я провел эксперименты и выявил влияние, результаты ниже

Прочие сайтмапы

Если ранее были отправлены иные сайтмапы, они могут задерживать обработку, отъедая краулинговый бюджет сайта. Недостаточно просто удалить сайтмап из консоли.

Цитата google:

Если вы удалите файл Sitemap, он будет удален из соответствующего отчета, но останется в Google, как и все URL, которые были в нем указаны.
Чтобы удалить файл Sitemap, выполните следующие действия:

  • Выберите Sitemap который нужно удалить, нажав на него.
  • Нажмите на значок «три точки».
  • Выберите Удалить файл Sitemap.
  • Чтобы роботы Google больше не обращались к файлу, удалите его с сайта или запретите доступ к нему с помощью файла robots.txt.
  • support.google.com/webmasters/answer/7451001

    Личный опыт

    • В 90% случаев если с самим сайтмапом всё в порядке, нужно просто подождать
    • В случаях когда ожидание не помогает, нужно делать адрес максимально простым. Для 0pencart FX Sitemap есть специальный патч в разделе поддержки

    Эксперименты

    Разные адреса и отметки принял (✅) или не принял (✖) Google

    ddd/s/rr_r
    ddd/s/rr
    ddd/s__1
    ?s=ddd
    ?route=ggg/e/uub
    fx_sitemap/index.php
    ru/index.php?route=extension/feed/google_sitemap
    ru/index.php?route=extension/feed/fx_sitemap
    ru/index.php?route=extension/feed/fxsitemap
    ru/index.php?route=extension/feed
    ru/index.php?route=feed/fx_sitemap

    Обратите внимание, у вас в sitemap размещена полная ссылка с доменом.
    Я часто замечал, что Google это не переваривает.

    Попробуйте удалить текущий сайтмап и добавить еще раз только вручную ввести в поле sitemap.xml, чтобы в итоге было вот так как на скриншотах: https://yadi.sk/i/w54mra16F4YMlw, https://yadi.sk/i/whc9m4MyZOEVFw, https://yadi.sk/i/_8K9r1JFyqz3Lg
    Видите, там только sitemap.xml в графе, без доменов.
    У меня на всех проектах именно так и отображается, и всё хорошо индексируется и работает.

    Обработка нового добавленного сайтмапа (чтобы показал статус успешно или нет), занимает несколько минут максимум. Не нужно ждать полгода. То есть просто перезагрузите страницу через минут 10 и увидите, обработал он его или нет.

    p.s. есть подозрение на кириллистический домен, но т.к. у меня в консоли нет ни одного такого домена (изначально клиентам не рекомендую их, только латиницу), то и проверить сложно. Но факт что Google раньше плевался и не обрабатывал сайтмапы с параметрами в url, сейчас исправился и обрабатывает, мало ли, возможно, глючит еще и со стороны русскоязычного домена, но сначала проверьте как выше написал, чтобы только sitemap.xml был в этой графе.

    Рекомендованные сообщения

    stanimor

    Apprentice

    Opencart 2.1

    NeoSeo Карта сайта 49

    Сайт https://argo-tema.ru/

    Google Search Console не воспринимает часть карты сайта: https://argo-tema.ru/sitemap-fcb_article.xml

    http://joxi.ru/l2ZEPd9i773VXm

    Эта часть выводит URL статей. Количество адресов более 12 тыс.

    Сама по себе указанная карта открывается без проблем. 
    Яндекс также все открывает и обрабатывает.

    Где то-читал, что во всем виной нижнее подчеркивание fcb_  

    Но в других картах сайта — все срабатывает нормально, даже с нижним подчеркиванием (правда там адресов — на порядок ниже).

    Думаю, это связано с количеством адресов и этим нижним подчеркиванием.

    Сообщите, что можно сделать?

    Возможно в каком-то файле модуля карты сайта можно поменть fcb_ на fcb-  ?

    • Цитата

    Поделиться сообщением


    Ссылка на сообщение
    Поделиться на других сайтах

    NeoSeo Team

    Enthusiast

    4 часа назад, stanimor сказал:

    Opencart 2.1

    NeoSeo Карта сайта 49

    Сайт https://argo-tema.ru/

    Google Search Console не воспринимает часть карты сайта: https://argo-tema.ru/sitemap-fcb_article.xml

    http://joxi.ru/l2ZEPd9i773VXm

    Эта часть выводит URL статей. Количество адресов более 12 тыс.

    Сама по себе указанная карта открывается без проблем. 
    Яндекс также все открывает и обрабатывает.

    Где то-читал, что во всем виной нижнее подчеркивание fcb_  

    Но в других картах сайта — все срабатывает нормально, даже с нижним подчеркиванием (правда там адресов — на порядок ниже).

    Думаю, это связано с количеством адресов и этим нижним подчеркиванием.

    Сообщите, что можно сделать?

    Возможно в каком-то файле модуля карты сайта можно поменть fcb_ на fcb-  ?

    Добрый день, э

    Цитата

    Возможно в каком-то файле модуля карты сайта можно поменть fcb_ на fcb-  ?

    Нет, в модуле не выйдет поменять — необходима доработка.

    Гугл получает 404 ошибку — страницы не существует, проверьте корректность указанного адреса к данной карте в гугл консоли. Например пробелы

    При валидации на других сервисах — ошибок нет, яндекс валидирует успешно

    image.png.748bc0024ca56d8c441aa1ef4a783a0a.png

    • Цитата

    Поделиться сообщением


    Ссылка на сообщение
    Поделиться на других сайтах

    stanimor

    Apprentice

    Проверил. 

    Вот Гугл выдал ошибки:

    image.thumb.png.64dfde46c0121b9349c01273cc254acc.png

    Упоминаемые строки вот:

    image.png.913e59a52300b3ecb9f3cf7771698538.png

    • Цитата

    Поделиться сообщением


    Ссылка на сообщение
    Поделиться на других сайтах

    stanimor

    Apprentice

    • Цитата

    Поделиться сообщением


    Ссылка на сообщение
    Поделиться на других сайтах

    NeoSeo Team

    Enthusiast

    9 часов назад, stanimor сказал:

    Указывает на одну статью, дату изменения и частоту. Вы можете статью эту отключить, чтобы ее не было в карте и отправить карту на проверку еще раз?

    • Цитата

    Поделиться сообщением


    Ссылка на сообщение
    Поделиться на других сайтах

    stanimor

    Apprentice

    1. Отключил ту статью.

    Ошибка в тех номерах строк осталась, видимо на те строки подтянулась следующая статья.
    Думаю со статьями там все ок. Просто гугл начинает обрабатывать карту и спотыкается на той строке и дальше не может.

    Возможно это связано с объемом карты памяти

    2. Поэтому я разбил карту памяти на бОльшее количество частей, с меньшим количество URL

    Все равно — проблема осталась. 

    image.thumb.png.a4a5c451647bb2a8f98934a6ef2ccc0f.png

    image.thumb.png.1d1526fcf6315c20fc25c49fb87b8c30.png

    По другим частям (каталог, категории, карточки товаров) — все ок. Нормально индксируется…

    Что можно еще предпринять? 

    • Цитата

    Поделиться сообщением


    Ссылка на сообщение
    Поделиться на других сайтах

    NeoSeo Team

    Enthusiast

    2 часа назад, stanimor сказал:

    1. Отключил ту статью.

    Ошибка в тех номерах строк осталась, видимо на те строки подтянулась следующая статья.
    Думаю со статьями там все ок. Просто гугл начинает обрабатывать карту и спотыкается на той строке и дальше не может.

    Возможно это связано с объемом карты памяти

    2. Поэтому я разбил карту памяти на бОльшее количество частей, с меньшим количество URL

    Все равно — проблема осталась. 

    image.thumb.png.a4a5c451647bb2a8f98934a6ef2ccc0f.png

    image.thumb.png.1d1526fcf6315c20fc25c49fb87b8c30.png

    По другим частям (каталог, категории, карточки товаров) — все ок. Нормально индксируется…

    Что можно еще предпринять? 

    Необходимо анализировать в чем проблема. Предлагаем нашу помощь в анализе проблемы. Данный вид работы можем выполнить, но на оплачиваемой основе.  Для оценки, пожалуйста, напишите в ЛС.

    • Цитата

    Поделиться сообщением


    Ссылка на сообщение
    Поделиться на других сайтах

    Присоединяйтесь к обсуждению

    Вы можете опубликовать сообщение сейчас, а зарегистрироваться позже.

    Если у вас есть аккаунт, войдите в него для написания от своего имени.

  • Не удалось обработать страницу ошибка системной службы распознавания paper capture 10001
  • Не удалось обработать ваш запрос на внесение средств ошибка bcd1695
  • Не удалось обновить ютуб ошибка 403
  • Не удалось обновить учетные данные для учетной записи произошла ошибка при отправке запроса
  • Не удалось обновить рокстар лаунчер код ошибки 209