• • •
Apache - httpd.conf - Log
 
• • •
Options - Order - Auth
 
• • •
ErrorDocument
 
• • •
AddType - MIME types
 
• • •
CharsetDefault - CharsetSourceEnc
 
• • •
Redirect - RedirectMatch
 
• • •
Mod_rewrite - RewriteCond
 
• • •
AddHandler - Pass(Set)Env
 
• • •
PHP - .htaccess
 
• • •
Дополнительный материал
 
Рекомендуем
 
Работа с ботами - роботами через Mod rewrite htaccess

Настройка для ботов-роботов - продолжение примеров для Mod_rewrite

Защита от накликивания, блокировка по урлу сервиса скликивания, блокировка hitbots


Данный генератор файла .htaccess создает директивы, которые блокируют пользователя зашедшего с определенного URL (-адреса) - предыдущей - посещенной страницы, т.е. отфильтровывает трафик, делая редирект на указанный вами адрес - страницу, или при невведении адреса просто блокирует посетителя- скликера. Данные директивы работают на основе модуля Apache - mod_rewrite.

Введите домены с которых к вам приходят скликаватели (люди с бирж, программы -кликандеры, и тд.), т.е. урлы, домены которые вы хотите заблокировать для вашего сайта, по одному домену-урлу (или IP-пи) в строке - через Enter:
(ВНИМАНИЕ: здесь вводим без "http://www." т.е. без протокола и World Wide Web)


Адрес куда будут перенаправляться зашедшие с данных запрещаемых адресов, т.е. введите полный УРЛ на который вы хотите перенаправлять всех зашедших с определеного вами выше адреса:
(ВНИМАНИЕ: здесь вводим без "http://www." т.е. без протокола и World Wide Web)

Оставьте пустым, чтобы просто блокировать просмотры - хиты, не куда ни кого не перенаправляя.


Напомним еще раз правила преобразования ссылок:

Если в подкаталогах в .htaccess нет ни одной директивы модуля mod_rewrite, то все правила преобразования наследуются из родительского каталога.

При наличии в файле .htaccess каких либо директив модуля mod_rewrite не наследуется ничего, а состояние по умолчанию выставляется таким же, как в главном конфигурационном файле веб-сервера (по умолчанию "off"). Поэтому, если нужны правила преобразования для конкретного каталога, то нужно еще раз вставить директиву "RewriteEngine on" в .htaccess для конкретного каталога.

При наследовании правил из верхних каталогов и добавлении к ним новых свойственных только данному каталогу - необходимо выставить в начале следущее: "RewriteEngine on" и "RewriteOptions inherit" - последняя директива сообщает серверу о продолжении.


Необходимо запрос любой страницы сайта отправлять на одну (будет написано что сайт временно не доступен), но в то же время нужно оставить его открытым для поисковых машин. То есть для клиентов сайт закрыт, а для индексации - открыт.

# Ставим это в начало htaccess

RewriteEngine On

RewriteCond %{HTTP_USER_AGENT} !^yandex.* [NC,OR]

RewriteCond %{HTTP_USER_AGENT} !^googlebot.* [NC,OR]

RewriteCond %{HTTP_USER_AGENT} !^.*gaisbot.* [NC,OR]

RewriteCond %{HTTP_USER_AGENT} !^rambler.* [NC,OR]

RewriteCond %{HTTP_USER_AGENT} !^aport.* [NC,OR]

RewriteCond %{HTTP_USER_AGENT} !^metacrawler.* [NC,OR]

RewriteCond %{HTTP_USER_AGENT} !^msnbot.* [NC,OR]

RewriteCond %{HTTP_USER_AGENT} !^.*crawler.* [NC,OR]

RewriteRule ^/$ - [L,R]


Жесткий запрет посещений нашего веб-сайта для робота поисковой системы Google

RewriteCond %{USER_AGENT} Googlebot

RewriteRule .* - [F]


# Другой вариант возвращает вместо ошибки 403 ( FORBIDDEN ) ошибку 404 ( NOT _ FOUND )

RewriteCond %{USER_AGENT} Googlebot

RewriteRule .* - [R=404]


Защита administrator.php от Brute Force атак на основе протокола. Все легальные пользователи и боты должны использовать протокол HTTP/1.1

RewriteCond %{REQUEST_URI} ^/administrator\.php$

RewriteCond %{THE_REQUEST} HTTP/1\.0

RewriteRule ^(.*)$ - [F,L]


Блокирование роботов

Описание:

Как мы можем заблокировать действительно надоедливых роботов на получение страниц из специфических областей сайта? Файла /robots.txt содержащего записи «Robot Exclusion Protocol» обычно недостаточно для избавления от такого робота.

Решение:

Мы используем набор правил запрещающие доступ для роботов к URL из веб-пространства /~quux/foo/arc/ (возможно это пространство имеет очень глубокую иерархию каталогов, обход которой роботом, привел бы к очень большой нагрузке на сервер). Мы должны убедиться что запрещается доступ только для конкретного робота, т.е. просто запрет для хоста с которого работает робот недостаточен. Это, также блокировало бы доступ пользователей с этого хоста. Этого эффекта мы добьемся проверяя также информацию из HTTP заголовока User-Agent.

RewriteCond %{HTTP_USER_AGENT} ^NameOfBadRobot.*

RewriteCond %{REMOTE_ADDR} ^123\.45\.67\.[8-9]$

RewriteRule ^/~quux/foo/arc/.+ - [F]


Список ботов наиболее распространенных в рунете:

Информация взята из хелпа Яндекса - User-agent для Яндекса - Yandex:

  • Yandex/1.01.001 (compatible; Win16; I) — основной индексирующий робот Яндекса.
  • Yandex/1.01.001 (compatible; Win16; P) — индексатор картинок.
  • Yandex/1.01.001 (compatible; Win16; H) — робот, определяющий зеркала сайтов.
  • Yandex/1.02.000 (compatible; Win16; F) — робот, индексирующий пиктограммы сайтов (favicons)
  • Yandex/1.03.003 (compatible; Win16; D) — робот, обращающийся к странице при добавлении ее через форму «Добавить URL»
  • Yandex/1.03.000 (compatible; Win16; M) — робот, обращающийся при открытии страницы по ссылке «Найденные слова»
  • YaDirectBot/1.0 (compatible; Win16; I) — робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса
  • YandexBlog/0.99.101 (compatible; DOS3.30,B) – робот, индексирующий xml-файлы для поиска по блогам.
  • YandexSomething/1.0 – робот, индексирующий новостные потоки партнеров Яндекс-Новостей.
  • Bond, James Bond (version 0.07) — робот официально никогда не упоминался. Ходит выборочно по страницам. Referer не передает. Картинки не загружает.

IP-адресов, с которых «ходит» робот Яндекса, много, и они могут меняться. Список адресов не разглашается.

Кроме роботов у Яндекса есть несколько агентов-«простукивалок»

(так называемые “дятлы“) , определяющих доступность сайта или документа, по ссылке в соответствующем сервисе.

  • Yandex/2.01.000 (compatible; Win16; Dyatel; C) — «простукивалка» Яндекс.Каталога. Если сайт недоступен в течение нескольких дней, он снимается с публикации. Как только сайт начинает отвечать, он автоматически появляется в Каталоге.
  • Yandex/2.01.000 (compatible; Win16; Dyatel; Z) — «простукивалка» Яндекс.Закладок. Ссылки на недоступные сайты помечаются серым цветом.
  • Yandex/2.01.000 (compatible; Win16; Dyatel; D) — «простукивалка» Яндекс.Директа. Она проверяет корректность ссылок из объявлений перед модерацией. Никаких автоматических действий не предпринимается.
  • Yandex/2.01.000 (compatible; Win16; Dyatel; N) — «простукивалка» Яндекс.Новостей. Она формирует отчет для контент-менеджера, который оценивает масштаб проблем и, при необходимости, связывается с партнером.


Поисковые роботы Google (Гугл) - User-agent для Гугла: Googlebot:

  • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) - робот Google, понимающий протокол HTTP 1.1.
  • Mediapartners-Google - поисковой роботы AdSens
  • Googlebot-Image (Google) Googlebot-Image/1.0 - Индексатор картинок
  • Google Search Appliance (Google) gsa-crawler - поисковой робот аппаратного поисковика Search Appliance


Поисковые роботы Rambler (Рамблер)User-agent для Рамблера: StackRambler

Поисковая система Рамблер имеет только робота, Ip-адрес которого может лежать в пределах интервала 81.19.64.0 - 81.19.66.255

  • StackRambler/2.0 (MSIE incompatible)
  • StackRambler/2.0

Поисковые роботы Yahoo - User-agent для Yahoo: Slurp или Yahoo! Slurp:

  • Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp) - стандартный поисковой робот.
  • Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp) - новый поисковой робот Yahoo 3-го поколения, работает также как и предыдущий.


Поисковые роботы MSN - User-agent для MSN: MSNBot:

  • msnbot/1.1 (+http://search.msn.com/msnbot.htm) - основной индексирующий робот MSN.
  • msnbot-media/1.0 (+http://search.msn.com/msnbot.htm) - робот поиска по изображениям.
  • msnbot-media/1.1 (+http://search.msn.com/msnbot.htm) - робот поиска по изображениям.
  • msnbot-news (+http://search.msn.com/msnbot.htm) - новостной робот.


Поисковые роботы Alexa - User-agent для Alexa:

  • ia_archiver (+http://www.alexa.com/site/help/webmasters; crawler@alexa.com) - индексирующий робот Alexa, ему же мы обязаны попаданием в web.archive.org

Имена - обозначения других (как правило англоязычных) наиболее значимых поисковых систем:

AbachoBOT,ia_archiver, FAST-WebCrawler, Scooter, Jeeves, Firefly, MantraAgent, Lycos, psbot, teomaagent, Slurp

Рекламная информация

Недавно освободившиеся домены с PR и ТИЦ:

Сервис http://reg.ru - крупнейшего хостинга и регистратора доменов позволяет подать заявку на регистрацию доменного имени, которое недавно было освобождено прежним Администратором. Освобожденные домены часто имеют высокие показатили ТИЦ и PR и могут быть интересны к приобретению.

Освобожденные домены .RU c ТИЦ:

Ваш скидочный 5% промокод при новой регистрации на REG.RU:


BCE5-81C9-2463-2224

Использовать промокод при оплате услуг сможет каждый из зарегистрировавшихся только один раз. Поэтому вначале добавляем в корзину все что нужно, а затем одной операцией вводим купон и проводим оплату.

Rotaban.ru - биржа баннерной рекламы

Объем информации: 16814 bytes
Россия • admin@htaccess.net.ru 2005 - 2023 •


 
  In Partnership with AOL Search    службы мониторинга серверов