






- • Боты - роботы через Mod rewrite




Настройка для ботов-роботов - продолжение примеров для Mod_rewrite
Защита от накликивания, блокировка по урлу сервиса скликивания, блокировка hitbots
Данный генератор файла .htaccess создает директивы, которые блокируют пользователя зашедшего с определенного URL (-адреса) - предыдущей - посещенной страницы, т.е. отфильтровывает трафик, делая редирект на указанный вами адрес - страницу, или при невведении адреса просто блокирует посетителя- скликера. Данные директивы работают на основе модуля Apache - mod_rewrite.
Введите домены с которых к вам приходят скликаватели (люди с бирж, программы -кликандеры, и тд.), т.е. урлы, домены которые вы хотите заблокировать для вашего сайта,
по одному домену-урлу (или IP-пи) в строке - через Enter:
(ВНИМАНИЕ: здесь вводим без "http://www." т.е. без протокола и World Wide Web)
Напомним еще раз правила преобразования ссылок:
Если в подкаталогах в .htaccess нет ни одной директивы модуля mod_rewrite, то все правила преобразования наследуются из родительского каталога.
При наличии в файле .htaccess каких либо директив модуля mod_rewrite не наследуется ничего, а состояние по умолчанию выставляется таким же, как в главном конфигурационном файле веб-сервера (по умолчанию "off"). Поэтому, если нужны правила преобразования для конкретного каталога, то нужно еще раз вставить директиву "RewriteEngine on" в .htaccess для конкретного каталога.
При наследовании правил из верхних каталогов и добавлении к ним новых свойственных только данному каталогу - необходимо выставить в начале следущее: "RewriteEngine on" и "RewriteOptions inherit" - последняя директива сообщает серверу о продолжении.
Необходимо запрос любой страницы сайта отправлять на одну (будет написано что сайт временно не доступен), но в то же время нужно оставить его открытым для поисковых машин. То есть для клиентов сайт закрыт, а для индексации - открыт.
# Ставим это в начало htaccess
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} !^yandex.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} !^googlebot.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} !^.*gaisbot.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} !^rambler.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} !^aport.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} !^metacrawler.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} !^msnbot.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} !^.*crawler.* [NC,OR]
RewriteRule ^/$ - [L,R]
Жесткий запрет посещений нашего веб-сайта для робота поисковой системы Google
RewriteCond %{USER_AGENT} Googlebot
RewriteRule .* - [F]
# Другой вариант возвращает вместо ошибки 403 ( FORBIDDEN ) ошибку 404 ( NOT _ FOUND )
RewriteCond %{USER_AGENT} Googlebot
RewriteRule .* - [R=404]
Защита administrator.php от Brute Force атак на основе протокола. Все легальные пользователи и боты должны использовать протокол HTTP/1.1
RewriteCond %{REQUEST_URI} ^/administrator\.php$
RewriteCond %{THE_REQUEST} HTTP/1\.0
RewriteRule ^(.*)$ - [F,L]
Блокирование роботов
Описание:
Как мы можем заблокировать действительно надоедливых роботов на получение страниц из специфических областей сайта? Файла /robots.txt содержащего записи «Robot Exclusion Protocol» обычно недостаточно для избавления от такого робота.
Решение:
Мы используем набор правил запрещающие доступ для роботов к URL из веб-пространства /~quux/foo/arc/ (возможно это пространство имеет очень глубокую иерархию каталогов, обход которой роботом, привел бы к очень большой нагрузке на сервер). Мы должны убедиться что запрещается доступ только для конкретного робота, т.е. просто запрет для хоста с которого работает робот недостаточен. Это, также блокировало бы доступ пользователей с этого хоста. Этого эффекта мы добьемся проверяя также информацию из HTTP заголовока User-Agent.
RewriteCond %{HTTP_USER_AGENT} ^NameOfBadRobot.*
RewriteCond %{REMOTE_ADDR} ^123\.45\.67\.[8-9]$
RewriteRule ^/~quux/foo/arc/.+ - [F]
Список ботов наиболее распространенных в рунете:
Информация взята из хелпа Яндекса - User-agent для Яндекса - Yandex:
- Yandex/1.01.001 (compatible; Win16; I) — основной индексирующий робот Яндекса.
- Yandex/1.01.001 (compatible; Win16; P) — индексатор картинок.
- Yandex/1.01.001 (compatible; Win16; H) — робот, определяющий зеркала сайтов.
- Yandex/1.02.000 (compatible; Win16; F) — робот, индексирующий пиктограммы сайтов (favicons)
- Yandex/1.03.003 (compatible; Win16; D) — робот, обращающийся к странице при добавлении ее через форму «Добавить URL»
- Yandex/1.03.000 (compatible; Win16; M) — робот, обращающийся при открытии страницы по ссылке «Найденные слова»
- YaDirectBot/1.0 (compatible; Win16; I) — робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса
- YandexBlog/0.99.101 (compatible; DOS3.30,B) – робот, индексирующий xml-файлы для поиска по блогам.
- YandexSomething/1.0 – робот, индексирующий новостные потоки партнеров Яндекс-Новостей.
- Bond, James Bond (version 0.07) — робот официально никогда не упоминался. Ходит выборочно по страницам. Referer не передает. Картинки не загружает.
Кроме роботов у Яндекса есть несколько агентов-«простукивалок»
(так называемые “дятлы“) , определяющих доступность сайта или документа, по ссылке в соответствующем сервисе.
- Yandex/2.01.000 (compatible; Win16; Dyatel; C) — «простукивалка» Яндекс.Каталога. Если сайт недоступен в течение нескольких дней, он снимается с публикации. Как только сайт начинает отвечать, он автоматически появляется в Каталоге.
- Yandex/2.01.000 (compatible; Win16; Dyatel; Z) — «простукивалка» Яндекс.Закладок. Ссылки на недоступные сайты помечаются серым цветом.
- Yandex/2.01.000 (compatible; Win16; Dyatel; D) — «простукивалка» Яндекс.Директа. Она проверяет корректность ссылок из объявлений перед модерацией. Никаких автоматических действий не предпринимается.
- Yandex/2.01.000 (compatible; Win16; Dyatel; N) — «простукивалка» Яндекс.Новостей. Она формирует отчет для контент-менеджера, который оценивает масштаб проблем и, при необходимости, связывается с партнером.
Поисковые роботы Google (Гугл) - User-agent для Гугла: Googlebot:
- Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) - робот Google, понимающий протокол HTTP 1.1.
- Mediapartners-Google - поисковой роботы AdSens
- Googlebot-Image (Google) Googlebot-Image/1.0 - Индексатор картинок
- Google Search Appliance (Google) gsa-crawler - поисковой робот аппаратного поисковика Search Appliance
Поисковые роботы Rambler (Рамблер)User-agent для Рамблера: StackRambler
Поисковая система Рамблер имеет только робота, Ip-адрес которого может лежать в пределах интервала 81.19.64.0 - 81.19.66.255
- StackRambler/2.0 (MSIE incompatible)
- StackRambler/2.0
Поисковые роботы Yahoo - User-agent для Yahoo: Slurp или Yahoo! Slurp:
- Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp) - стандартный поисковой робот.
- Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp) - новый поисковой робот Yahoo 3-го поколения, работает также как и предыдущий.
Поисковые роботы MSN - User-agent для MSN: MSNBot:
- msnbot/1.1 (+http://search.msn.com/msnbot.htm) - основной индексирующий робот MSN.
- msnbot-media/1.0 (+http://search.msn.com/msnbot.htm) - робот поиска по изображениям.
- msnbot-media/1.1 (+http://search.msn.com/msnbot.htm) - робот поиска по изображениям.
- msnbot-news (+http://search.msn.com/msnbot.htm) - новостной робот.
Поисковые роботы Alexa - User-agent для Alexa:
- ia_archiver (+http://www.alexa.com/site/help/webmasters; crawler@alexa.com) - индексирующий робот Alexa, ему же мы обязаны попаданием в web.archive.org
Имена - обозначения других (как правило англоязычных) наиболее значимых поисковых систем:
AbachoBOT,ia_archiver, FAST-WebCrawler, Scooter, Jeeves, Firefly, MantraAgent, Lycos, psbot, teomaagent, Slurp
Недавно освободившиеся домены с PR и ТИЦ:
Сервис http://reg.ru - крупнейшего хостинга и регистратора доменов позволяет подать заявку на регистрацию доменного имени, которое недавно было освобождено прежним Администратором. Освобожденные домены часто имеют высокие показатили ТИЦ и PR и могут быть интересны к приобретению.
Освобожденные домены .RU c ТИЦ: |
Ваш скидочный 5% промокод при новой регистрации на REG.RU: Использовать промокод при оплате услуг сможет каждый из зарегистрировавшихся только один раз. Поэтому вначале добавляем в корзину все что нужно, а затем одной операцией вводим купон и проводим оплату. |

