Dotbot что за бот
Как заблокировать Semrush и других ботов на сайте
Почти каждый владелец сайта сталкивается с активностью ботов на своем сайте. Активность ботов известных поисковых систем обычно не создает существенной нагрузки и не сильно влияет на скорость работы сайта.
Однако есть и другие боты, например DotBot или Semrush. Наши клиенты сталкивались с тем, что эти боты отправляли настолько много запросов на сайт, что это было подобно эффекту небольшой DDoS-атаки. Это приводило к большой нагрузке на сайт и сервер, и недоступности сайта для других посетителей.
Мы расскажем, как заблокировать DotBot, Semrush и других ботов.
Блокировка ботов на хостинге и VDS
Вот как это можно сделать на хостинге NetAngels:
Как заблокировать ботов, если ваш сайт на VDS
На VDS в качестве вебсервера часто используются:
Блокировка через nginx
Мы предполагаем, что у вас есть доступ root на VDS сервер. Зайдите через SSH на сервер от имени пользователя root. Можно подключиться через SSH по нашей статье.
Если вы не уверены какой вебсервер используется на VDS, то выполните команду
Если результат будет такой:
То выполните инструкции для htaccess.
Если же команда вернула
То перейдите в каталог с конфигурацией nginx:
Создайте файл, в котором будут правила блокировки
Вставьте в этот файл текст:
Сохраните изменения нажав F2, затем Enter.
Перейдите в каталог с сайтами
Просмотрите содержимое каталога
Определите сайты, где вы хотите заблокировать ботов.
Например, если нужно заблокировать ботов на сайте vm-79395343.na4u.ru :
То отредактируйте файл с его конфигурацией:
В блок server добавьте строку
На нашем сервере конфигурация стала выглядеть вот так:
Сохраните изменения нажав F2, затем Enter.
Если тестирование прошло успешно, то перезапустите веб-сервер для применения изменений:
Проверьте, что все в порядке после перезапуска:
Проверка показывает, что если представляться ботом SemrushBot, то запрос блокируется:
Список полезных и вредных ботов и краулеров
В этой статье буду рассказывать о ботах, полезных и вредных, чтобы было известно, каких ботов можно блокировать, а какие не стоит. Также в отдельной статье рассказываю о том, как нужно блокировать вредоносных ботов, чтобы снизить нагрузку на сайт.
Иногда буду копаться по логам и искать новых. Здесь только те, что попались на моих сайтах.
Полезные боты и краулеры
В этом списке будут полезные боты и краулеры, а также информация о них, рекомендую ознакомиться, прежде чем блокировать их. Также можете посмотреть информацию. Полезный бот или краулер для одних людей, может быть бесполезен для других.
GrapeshotCrawler/2.0
Oracle Data Cloud Crawler — это автоматизированный краулер от компании Oracle. Нужен для анализа содержимого страниц для рекламодателей. Используется во многих системах назначения ставок в режиме реального времени (RTB ), применяется также и в Adsence, так что блокировка данного бота может плохо сказаться на ваших доходах с рекламы.
Идентифицирует себя так: (compatible; GrapeshotCrawler/2.0; +http://www.grapeshot.co.uk/crawler.php).
Диапазон IP- адресов GrapeshotCrawler/2.0:
от 148.64.56.64 до 148.64.56.80
от 148.64.56.112 до 148.64.56.128
Без необходимости блокировать не рекомендуется, но если у вас нет контекстной рекламы на сайте, то можно избавиться от данного краулера.
Googlebot/2.1 (Робот Googlebot)
Поисковый робот компании Google, выполняет обход и индексирование страниц сайтов. Блокировать нельзя, так как это может плохо сказаться на позициях в поисковой системе Google.
Идентифицирует себя так: (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Если данный робот даёт слишком серьёзную нагрузку на сервер, можете снизить частоту сканирования (https://support.google.com/webmasters/answer/48620).
YandexTurbo/1.0
Краулер для страниц Яндекс Турбо, на сайте появляется только в том случае, если к нему подключены Турбо-страницы. Обходит RSS- фид для Турбо-страниц.
Идентифицирует себя так: (compatible; YandexTurbo/1.0; +http://yandex.com/bots).
Блокировать YandexTurbo/1.0 не рекомендуется, так как это может блокировать отображение Турбо-страниц в Яндекс.
YandexBot/3.0
Поисковой краулер Яндекс, по совместительству основной индексирующий робот. Совершает обход страниц, а также сбор данных, содержащихся на ней. Блокировать не рекомендуется, так как это может негативно сказаться на позициях сайта в поисковой системе Яндекс.
Идентифицирует себя так: (compatible; YandexBot/3.0; +http://yandex.com/bots).
Если данный краулер создаёт слишком сильную нагрузку на сервер, можно ограничить скорость обхода им в настройках Яндекс Вебмастер.
YandexAccessibilityBot/3.0
Проверяет доступность страниц для пользователей, для этого их скачивает. Блокировать не рекомендуется, так как это может плохо сказаться на позициях в ПС Яндекс. Настройки скорости обхода в Яндекс Вебмастер игнорирует.
YandexMetrika/2.0 и YandexMetrika/3.0, YandexMetrika/4.0
Роботы Яндекс Метрики, появляются на сайте только при подключении оной. YandexMetrika/4.0 скачивает стили для Яндекс Метрики для того, чтобы правильно их отображать в Вебвизоре.
YandexPartner/3.0
Скачивает информацию о страницах сайтов, подключённых к Партнёрской сети Яндекс, анализирует на соответствие рекламы и контента, также следит за политикой назначения ставок на конкретных страницах.
ias-va/3.1, ias-jp/3.1
Поисковой краулер ias-va, а также ias-jp/3.1 от компании ADmantX, используется в партнёрской сети AdSense, соответственно, его нельзя блокировать, если используете AdSense на своём сайте. Данный краулер собирает данные о семантике сайта.
Идентифицируются так: ias-va/3.1 (+https://www.admantx.com/service-fetcher.html).
Bingbot
И дентифицирует себя так: (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm).
newspaper/0.2.8
Судя по IP, относится к GoogleUserContent, вполне возможно, занимается сбором контента для рекомендательных систем Google и GoogleNews. Лучше не блокировать.
Mail.RU_Bot/2.0, Mail.RU_Bot/Img/2.0
Индексирующий краулер компании Mail.ru, соответственно, Mail.RU_Bot/2.0 является поисковым краулером, который обходит страницы сайта и добавляет их в индекс поисковой системы.
Mail.RU_Bot/Img/2.0 — бот, который делает обход по изображениям. Оттуда я ещё ни разу не видел трафика на сайте, но всё же лучше не блокировать, особенно если сайт специализируется на медиаконтенте.
vkShare
Бот, который приходит на сайт, если посетитель расшаривает страницу какого-либо сайта в социальную сеть Вконтакте через виджет. Берёт такие данные, как фавиконка сайта, изображение расшариваемой страницы, а также данные, вроде анонса, заголовка.
Идентифицирует себя так: (compatible; vkShare; +http://vk.com/dev/Share).
Если vkShare заблокировать, то расшаривание страниц во Вконтакте не будет корректно работать.
facebookexternalhit/1.1 Facebot Twitterbot/1.0
Краулеры Facebook и Twitter, что, впрочем, ясно из названия, собираю данные ваших расширенных описаний, а также данные со страниц для отображения оных. Есть подозрения, что также проверяет контент на соответствие «Нормам сообществ», но это не точно.
Если необходимое правильное отображение страниц при расшаривании в данные социальные сети, лучше не блокировать.
Mediapartners-Google
Бот, проверяющий сайты-партнёры в Google Adsense. Требуется для правильной обработки контекстной рекламы. Если являетесь партнёром Adsense, блокировать нельзя, так как сие действие может сократить доходы с рекламы.
FeedBurner/1.0
Инструмент Google. Считывает RSS- лент. Для каких целей до конца неясно. Идентифицирует себя так: FeedBurner/1.0 (http://www.FeedBurner.com). Блокировать, конечно, не рекомендуется, но если создаёт сильную нагрузку, то можно.
Плохие боты и краулеры
В этой части будут рассмотрены плохие боты, которые следует заблокировать, чтобы снизить нагрузку на сервер сайта. Но тоже смотрите внимательно, так как некоторые плохие боты могут оказаться полезными конкретно для вашего сайта.
DotBot
Бот компании Moz, собирает статистику о сайтах для коммерческой продажи для клиентов сервиса Moz, данный бот может быть полезен только для тех сайтов, которые работают с Moz по API, в противном случае это лишняя нагрузка на сайты.
Идентифицирует себя так: (compatible; DotBot/1.2; +https://opensiteexplorer.org/dotbot; help@moz.com).
BLEXBot
Собирает SEO- данные о сайте для коммерческой продажи клиентам. Создаёт лишнюю нагрузку, а также делает данные о сайте прозрачными для конкурентов. Рекомендуется блокировать.
Идентифицирует себя так: (compatible; BLEXBot/1.0;).
AhrefsBot
Бот компании Ahfers, занимающейся SEO- аналитикой, собирает данные о вашем сайте (SEO, линкбилдинг, трафик), а потом продаёт её клиентам. Лучше блокировать, так как эти данные могут быть полезными для ваших конкурентов.
Идентифицирует себя так: (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/).
MBCrawler
MBCrawler/1.0 разработан MonitorBacklinks, занимается анализом обратных ссылок и создаёт серьёзную нагрузку на сайты. Очень активен, рекомендуется блокировать, так как может получить много информации об обратных ссылках с вашего сайта. Идентифицирует себя так: (MBCrawler/1.0 (https://monitorbacklinks.com/robot). Лучше блокировать.
YaK/1.0
Это бот компании LinkFluence. Собирает данные о сайтах для дальнейшего коммерческого использования. Соответственно, может быть использован конкурентами против вас. Рекомендуется блокировать.
Идентифицирует себя так: (compatible; YaK/1.0; http://linkfluence.com/; bot@linkfluence.com).
niraiya.com/2.0 (Stolen Passwords Checker Bot)
Бот для проверки украденных паролей от компании Nirariya, компания занимается продажей менеджера паролей. Скорее всего, проверяю сайт на утечки паролей, но бот создаёт лишнюю нагрузку. Лучше блокировать.
Идентифицирует себя так: (compatible; niraiya.com/2.0;)
MegaIndex.ru/2.0
Бот Megaindex.ru, собирает данные о вашем сайте, SEO, обратных ссылках, потом предоставляет эту информацию на коммерческой основе. Бот можно расценить как вредоносный, если не используете его для аналитики собственного сайта. Также делает прозрачным данные о вашем сайте для конкурентов.
Идентифицирует себя так: (compatible; MegaIndex.ru/2.0; +http://megaindex.com/crawler).
MJ12bot
Очередной бот SEO- аналитики, если начал появляться на сайте, то будет его серьёзно грузить. Блокировать MJ12bot следует обязательно. Это бот компании Majestic, впрочем, если работаете на сервисах, связанных с Majestic, то не стоит его блокировать, например, если работаете на биржах ссылок вроде Majestic или Miralinks, то там очень важны показатели Majestic.
SemrushBot
SemrushBot от SEO- сервиса Semrush, периодически создаёт серьёзную нагрузку на сайт, обходя его снова и снова. Данные, которые собирает данный бот, нужны для того, чтобы продавать их на коммерческой основе.
Соответственно, информация, собранная данным ботом, будет доступна конкурентам, что может не пойти вам на пользу.
Cloudfind
Бот от одноимённой компании, ищет парнёров для аффилирования для партнёрского маркетинга. Чаще гуляет по зарубежным площадкам, но периодически появляется и в ру-сегменте.
CriteoBot/0.1
Краулер компании Criteo. По идее должен проверять страницу на соответствие контента маркетинговым целям. Например, анализировать статью по содержанию, а потом отнести к определённой категории.
Идентифицирует себя так: CriteoBot/0.1 (+https://www.criteo.com/criteo-crawler/).
Относится ли к каким-либо партнёрским сетям вроде Adsense или РСЯ не удалось, информации о том, где используется данный краулер, тоже найти не удалось, так что решил CriteoBot/0.1 блокировать.
GetIntent Crawler
Краулер от компании GetIntent. Собирает данные о сайтах для маркетинговых целей, например, для анализа перспектив размещения контекстной рекламы. С какими рекламными платформами сотрудничает, неизвестно, информации о том, работает данный краулер с AdSense или РСЯ найти не удалось, так что решил его заблокировать.
SafeDNSBot
Бот от компании SafeDNS, компания позиционирует себя как средство защиты от вредоносных сайтов и периодически проверяет сайты на безопасность. Нагрузку на сайт создаёт небольшую, так что можно и не блокировать.
SeopultContentAnalyzer/1.0
Бот компании PromoPult (бывш. SeoPult ), собирает SEO- данные сайта вроде обратных ссылок, ключевых слов сайта и т. п. Соответственно, собранные данные будут анализировать и предоставляться вашим конкурентам на коммерческой основе. Бота SeopultContentAnalyzer/1.0 рекомендуется блокировать.
serpstatbot/2.0
Бот от известной платформы Serpstat. Постоянно анализирует сайты на наличие обратных ссылок. Полученную информацию использует в коммерческих целях, предоставляя её в рамках своего сервиса. Соответственно, помимо дополнительной нагрузки на сервер, предоставляет больше информации о вашем сайте конкурентам. Рекомендуется блокировать.
LinkpadBot
Бот сервиса LinkPad. LinkpadBot собирает информацию о ссылочном профиле вашего сайта для коммерческого использования, соответственно, ваши конкуренты могут получить данные о ссылках, которые вы размещаете на сайте, а также будут дискредитированы сетки сайтов-сателлитов. Лучше данного бота блокировать.
Slurp
Поисковой краулер Yahoo! За особым беспределом не замечен, но в СНГ с него трафика практически нет, соответственно, особой пользы от Slurp Bot не будет. Лучше заблокировать, ибо иногда начинает активно обходить сайты.
Если сайт ориентирован на зарубежную аудиторию, лучше оставить.
DataForSeoBot/1.0
Бот сервиса DataForSeo, занимается проверкой обратных ссылок и анализом сайта для дальнейшего использования в коммерческих целях, например, для предоставления SEO- данных вашего сайта конкурентам.
Пользы от DataForSeoBot/1.0 нет, лучше блокировать.
Rome Client (http://tinyurl.com/64t5n)
Неизвестно, что за краулер этот Rome Client, толком и не нашёл о нём информации. Судя по IP, запросы идут с сервиса Amazon AWS. Ориентируется именно на Feed сайта, вполне возможно, что выгружает его для своих целей. Так как неизвестно, что это за бот и какие цели преследует, лучше его блокировать.
Scrapy
Бот Scrapy разработан для того, чтобы обходить сайты с открытым исходным кодом и вытаскивать с них данные. Зачем? Цели могут быть разные, как хорошие, так и плохие. В общем, данного бота лучше блокировать.
FlipboardRSS
Бот платформы Flipboard, берёт вашу RSS- ленту для публикации. В целом не вредоносный, даже необходимый, если вы публикуете свои материалы на Flipboard, проблем в том, что вашу RSS- ленту на данном сервисе может опубликовать кто угодно. Вы не получите оттуда трафика, зато получите периодический обход ботом.
FlipboardProxy
Тоже от FlipBoard, фактически проверяет ваш сайт, а также анализирует, как он выглядит. Нужен для отображения материалов на Flipboard. Если трафика с этого сервиса нет, можно бота блокировать.
Proximic Bot
Иногда в логе можно видеть этого бота, идентифицирует себя так: (compatible; proximic; +https://www.comscore.com/Web-Crawler).
Занимается сопоставлением соответствия контента и контекстной рекламы. Работает ли с AdSense или РСЯ неизвестно, соответственно, не могу отнести его к полезным, вполне возможно, что этот бот просто собирает информацию для проектов и «тренируется» на сторонних сайтах, чтобы точнее определять тематику данных на разных языках.
ZoominfoBot
Единственные данные в строке идентификации: (zoominfobot at zoominfo dot com). Собирает только деловую информацию с сайта, как правило, вытягивает весь фид сайта. Для русскоязычной аудитории практически бесполезен.
Информацию собирает в коммерческих целях, для агрегации и предоставления своим пользователям на коммерческой основе. Лучше блокировать.
SeznamBot/3.2
Краулер чешской поисковой системы Seznam. Если у вас сайт не на чешском языке, толку, скорее всего, от него никакого. Да и посетителей на этом «поисковике» нет. В общем, за всю жизнь моего сайта не видел оттуда ни одного посетителя, соответственно, считаю этот бот вредным и рекомендую его блокировать.
Seekport Crawler
Краулер очередного «недопоиска». Трафика с него не видно, перспектив у данной поисковой системы тоже нет, информации о ней практически никакой.
Идентифицирует себя так: (compatible; Seekport Crawler; http://seekport.com/).
Думаю, мало смысла пускать их краулер к себе на сайт, перспектив мало, особенно для СНГ.
Подозрительный рост посещаемости сайта: как защититься от ботов
Подписаться на
рассылку
Отправляем полезные письма о бизнесе, сайтах и хостинге каждые 2 недели
Рассказываем о том, как поисковые роботы создают всплеск фейковой посещаемости сайта и высокую нагрузку на сервер.
Иногда владельцы сайтов встречаются с неожиданным всплеском посещений на ресурсе. Причиной такой активности могут быть боты.
Боты — программы, которые выполняют простые действия на сайтах и повторяют их очень быстро: гораздо быстрее, чем это делал бы человек.
Более известны поисковые боты: они изучают веб-страницы и вносят их в поисковую выдачу. Другие — например, боты сервисов SEO-анализа — направлены на изучение проектов заказчика или конкурента. Из-за их работы сайт может резко понизиться в поисковой выдаче и даже отключиться из-за чрезмерно увеличенной нагрузки.
В статье рассказываем о том, как поисковые роботы создают всплеск «фейковой» посещаемости сайта и высокую нагрузку на сервер.
Как узнать, индексируются ли страницы поисковиками
Для начала работы с контролем посещения ресурса стоит узнать, какие страницы сейчас находятся в поиске. Легкий и удобный способ проверки — с помощью сервисов самих поисковых систем Яндекс и Google.
В Яндекс.Вебмастере раскройте раздел «Индексирование» (1) и перейдите в «Проверить статус URL» (2). Введите адрес страницы (3) и нажмите «Проверить». После отображения результатов вы можете раскрыть их с помощью кнопки «Подробнее» и убедиться в том, что страница индексируется Яндексом.
Для проверки страницы в Google перейдите в Google Search Console. Нажмите «Проверка URL» (1) и введите адрес страницы в поле (2).
Результат будет показан на экране:
Чем отличаются «плохие» поисковые боты
Владельцам сайтов хорошо известны поисковые боты, однако не все они полезны. Их могут использовать во вред. Например, для сбора e-mail, искусственного всплеска посещения сайта, распространения вредоносного ПО и много другого. Сайт может резко понизиться в поисковой выдаче и даже отключиться из-за чрезмерно увеличенной нагрузки.
Зачастую «плохих» ботов непросто вычислить: они притворяются обычными пользователями, а в аналитике могут быть помечены как трафик с нормального сайта. На самом деле из-за посещения ботов происходит всплеск активности, который перегружает сервер и сайт перестает работать.
Полный список ботов представлен международной библиотекой — ABC International Spiders and Bots List.
Расскажем о часто встречающихся.
SEMrushBot — бот аналитического сервиса semrush.com, предназначенный для обнаружения и сбора новых и обновленных веб-данных, а именно — для SEO-анализа сайта. Такие данные помогают найти технические проблему, улучшить удобство использования ресурса, отслеживать потенциально опасные обратные ссылки и многое другое.
Он позволяет получить отчет SEO-параметров для вашего ресурса. Однако когда ваш сайт исследуют конкуренты, это отрицательно повлияет на бизнес. Бот сканирует сайт — одновременно посещает несколько веб-страниц, тем самым перегружает сервер и создает неудобства настоящим пользователям.
DotBot — поисковый бот. Как и SEMrush, он предназначен для задач SEO. Бот собирает информацию и создает базу обратных ссылок на ресурсы сети. Отличается огромным «аппетитом» — создает большую нагрузку на сайт.
AhrefsBot — бот аналитического сервиса ahrefs.com, который исследует внешние факторы онлайн-ресурсов. Он создает большую нагрузку на сервер во время поиска на веб-страницах ссылок на другие сайты.
BLEXBot похож на ботов поисковых систем. Он посещает страницы и анализирует их содержание.
BLEXBot помогает получить информацию о структуре ссылок на сайтах и их взаимосвязи в сети, чтобы исключить любые технические и юридические проблемы. Для этого бот сканирует страницы, собирает и проверяет все ссылки, которые есть в их содержании.
Как бороться с ботами
Ботов — огромное количество, однако не стоит блокировать все известные. В этом случае появится вероятность перегрузить сервер, так как он будет проверять каждого нового пользователя на принадлежность боту. Рекомендуем блокировать только наиболее встречающихся, чтобы сайт работал в обычном режиме. Например, очистите трафик от SEMrush.
Если появятся вопросы, поможем по любому из способов связи: онлайн-чат на сайте, через личный кабинет, по почте support@reddock.ru, по телефону +7 (495) 008-31-24 или +7 (351) 225-64-56.
Что почитать о поисковых ботах
Тема ботов интересна и часто поднимается на самых разных ресурсах. Делимся самыми увлекательными.
Желаем всем высокого трафика на проект без ботов!
Не пропустите новые материалы и обновления — подпишитесь на нас в любимой соцсети: Instagram, ВКонтакте или Facebook.
Dotbot что за бот
Кого не любят в арбитражной тусовке и за что?
Telegram и TikTok грозят новые штрафы в России
Хотел заблокировать доступ «плохим» роботам, чтоб уменьшить нагрузку на хостинг.
Нашел в интернете такую конструкцию
Подскажите, пожалуйста, какой User-Agent в списке блокирует доступ с мобильного?
Все эти списки не имеют никакого смысла, т.к. «плохие роботы» не передают User-Agent. Они подставляют какой угодно User-Agent, кроме своего настоящего.
В логах AhrefsBot и MJ12bot, например, довольно часто мелькают.
Они нужны на сайте или только нагрузку создают?
Эти не нужны точно. А User-Agent в логах поглядите, зайдите на сайт да поглядите кого в это время не пустило на сайт.
Samail, Подскажите, если добавляю верхний код. То не пускает с мобильного.
Какая часть правила мешает?
Подскажите, может какие-то юзерагенты стоит добавить, а что-то убрать?
lustoff, блокируй их.
У меня кстати где-то был список UserAgent всяких ботов, которых я на своих сайтах банил. Надо найти.
Вот эти вот ребята активно парсят мои сайты, игнорируя директивы в robots.txt. Кстати, они же «долбят» и после бана. К примеру, вот последняя статистика по просмотрам с забаненных USER-Agent:
Во вложениях CSV файл, из моей внутренней статистики, там IP и забаненный User-Agent, 995 IP адресов. Может кому будет полезно.
Как сгенерировать сайт на миллионы страниц и не положить сервер
Недавно в дорвейном чате у кого-то возник вопрос по поводу блокировки плохих ботов, которые нагружают сайты. Это актуально для тех, например, у кого есть динамические доры, которые способны разрастаться до нескольких миллионов страниц за считанные месяцы.
Например, вот индексация у меня на одной из сеток:
Здесь в Яндексе более 10 миллионов страниц.
И, если все бросить на самотёк и не предпринимать никаких мер, то сервер просто умрёт под натиском всяких там ahrefs, semrush, bing и прочих ботов, которые шерстят сеть, создавая дополнительную нагрузку.
Понятное дело, что ботов Яндекса и Гугла нам надо пускать на сайты и, если у вас миллионы страниц, то придется возиться с оптимизацией скриптов \ серверов, но вот плохих ботов, которые лезут без спроса — можно и нужно отсекать на уровне веб-сервера. Nginx или Apache, у кого что. Или же, можно фильтровать через iptables, не пуская их даже до веб-сервера.
Список плохих ботов, которых можно блокировать
Как фильтровать: Nginx и Apache
В Nginx в секции server можно вставить прямо так:
* «LinkpadBot|Sosospider|Sogou web spider|aesop_com_spiderman|SemrushBot|…|SputnikBot|SputnikImageBot») <
return 444;
>
Вместо многоточия любые другие боты через разделитель «|».
Вместо многоточия, опять же, юзер агенты ботов.
Если идет непонятная нагрузка
Бывает такое, что вроде всех ботов отсекаем, но неожиданно растет нагрузка. Либо появился какой-то новый говнобот, либо кто-то вас начал парсить из-за чего пошел ddos на сервер.
В таких случая стоит включить логи доступа для сайтов и проверить какую такую активность развели на ваших ресурсах.
Можно глянуть логи, например, так:
Там сразу будет видно, с какого IP или Юзер агента идут множественные запросы. И после этого уже блокировать их на подлете.
Блокировка через Iptables
Еще один вариант, как заблочить плохих парней.
Выглядит он примерно так:
Этот встроенный в Linux фаерволл особенно эффективен, когда нужно дропать на подходе какие-то айпишники. Главное, не заблочить себя и белые айпи, а то будет ай-ай (: