Можно все, что не запрещено?

Марина | 14.11.2017

Изменить размер текста: A A

К каждому коммерческому предложению мы традиционно прикладываем аудит сайта. Без доработок, без приведения сайта в порядок не будет того эффекта от продвижения, на которое рассчитывает заказчик. Или вообще не будет эффекта. Почему? Расскажем и покажем наглядно. Начинаем цикл статей, посвященных аудиту.

Запрещаем не лезть, куда не следует

Первое, на что обращаем внимание и где часто совершаются ошибки – файл robots.txt

Robots.txt — текстовый файл, который содержит параметры индексирования сайта для роботов поисковых систем.

Именно в нем мы сообщаем поисковым системам о страницах, которые не нужно просматривать. А то ведь как? Они руководствуются правилом «Можно все, что не запрещено». Ну и выдают в поиске все, что нашли. Года два назад был скандал, когда в индекс поисковых систем попали страницы личного кабинета магазина для взрослых. Со списком купленных товаров. С контактами. И кто-то нашел. И выложил в открытый доступ. И началась травля. Людям звонили, к кому-то даже приезжали домой. А ведь всего-то надо было вебмастерам закрыть от индексации этот раздел…

И ведь ничему никого жизнь не учит. До сих пор можно найти в поиске заявки на профессиональную косметику, бамбуковые обои, запчасти для холодильников, матрасы и рыболовные снасти. С указанием номера и даты заказа, ФИО и e-mail клиента, списком его покупок и адресом доставки. Из этических соображений заретушировали персональные данные.

Результаты поиска при незаполненном robots.txt

Страница заявки, на которую можно перейти из поиска

Так что, первое – проверяем, чтобы было закрыто все, что смотреть и выкладывать не надо. Туда не только личный кабинет входит. Это и система редактирования, и результаты поиска, страницы регистрации и входа, версии для печати, страницы с результатами фильтрации и сортировки.

Кратко о том, на что еще обратить внимание. Это не приведет к таким печальным последствиям, как описано выше, но тоже необходимо.

Указан ли путь к файлу с описанием структуры сайта – sitemap.xml. О самом файле – в других темах.

Указано ли главное зеркало сайта в качестве значения директивы host.

При использовании протокола https указано ли это в файле robots.txt? Или забыли? Чаще всего забывают…

Также для всех роботов, кроме основных, рекомендуем указывать задержку между загрузками страниц через директиву crawl-delay.

Сомневаетесь, правильно ли заполнили свой robots.txt? Вы всегда сможете обратиться к нам за консультацией.

Как говорится у Яндекса, robots.txt – предохраняйтесь!

Понравилась статья?