Facebookexternalhit что за робот

excessive traffic from facebookexternalhit bot

Does anyone know how tell the ‘facebookexternalhit’ bot to spread its traffic?

I’ve seen related bug reports ( First Bug, Second Bug and Third Bug (#385275384858817)), but could not find any suggestions how to manage the load.

3 Answers 3

Per other answers, the semi-official word from Facebook is «suck it». It boggles me they cannot follow Crawl-delay (yes, I know it’s not a «crawler», however GET’ing 100 pages in a few seconds is a crawl, whatever you want to call it).

Since one cannot appeal to their hubris, and DROP’ing their IP block is pretty draconian, here is my technical solution.

In PHP, execute the following code as quickly as possible for every request.

You can test this from a command line with something like:

Improvement suggestions are welcome. I would guess their might be some concurrency issues with a huge blast.

Facebookexternalhit что за робот. Смотреть фото Facebookexternalhit что за робот. Смотреть картинку Facebookexternalhit что за робот. Картинка про Facebookexternalhit что за робот. Фото Facebookexternalhit что за робот

I know it’s an old, but unanswered, question. I hope this answer helps someone.

There’s an Open Graph tag named og:ttl that allows you to slow down the requests made by the Facebook crawler: (reference)

Crawler rate limiting You can label pages and objects to change how long Facebook’s crawler will wait to check them for new content. Use the og:ttl object property to limit crawler access if our crawler is being too aggressive.

Checking object properties for og:ttl states that the default ttl is 30 days for each canonical URL shared. So setting this ttl meta tag will only slow requests down if you have a very large amount of shared objects over time.

But, if you’re being reached by Facebook’s crawler because of actual live traffic (users sharing a lot of your stories at the same time), this will of course not work.

Another possibility for you to have too many crawler requests, is that your stories are not being shared using a correct canonical url ( og:url ) tag. Let’s say, your users can reach certain article on your site from several different sources (actually being able to see and share the same article, but the URL they see is different), if you don’t set the same og:url tag for all of them, Facebook will think it’s a different article, hence generating over time crawler requests to all of them instead of just to the one and only canonical URL. More info here.

Источник

Трагикартинки Фэйсбука

Всем привет! Да, это я 2 года 11 месяцев и 6 дней назад обещал рассказать про новые уязвимости. Но со временем стало понятно, что, либо они не интересные, либо рассказывать о них пришлось бы с помощью скриншотов больше похожих на рассекреченные документы спецслужб — пара бессмысленных слов и куча чёрных прямоугольников. Но — время пришло.

Я уверен, что все вы слышали про ImageMagick и его «Трагедию». Эта уязвимость была найдена в конце апреля 2016 года и в следствии того, что многие плагины, обрабатывающие изображения, использовали библиотеку ImageMagick, данная проблема охватывала большое количество систем. Так как были свидетельства о том, что информация о данной уязвимости была доступна не только исследователям, которые её обнаружили, и разработчикам ImageMagick’а, но и третьим лицам, 3 мая 2016 года информация о уязвимости (без PoC) была раскрыта для всего мира. Многие исследователи воспользовались данной информацией и нашли уязвимости в приложениях, которые не были обновлены вовремя. К сожалению, я не был среди этих счастливчиков. Но это было в мае:)

Однажды в субботу, за окном был питерский октябрь, я тестировал один большой сервис — не Facebook. Но один из редиректов привёл меня на него — это был диалог «Поделиться на Facebook»:

Facebookexternalhit что за робот. Смотреть фото Facebookexternalhit что за робот. Смотреть картинку Facebookexternalhit что за робот. Картинка про Facebookexternalhit что за робот. Фото Facebookexternalhit что за робот

Этот диалог могли видеть многие из вас. Если мы приглядимся, можно увидеть, что параметр `picture` является ссылкой на изображение. Но такого изображения нету в содержании страницы. Например:

Facebookexternalhit что за робот. Смотреть фото Facebookexternalhit что за робот. Смотреть картинку Facebookexternalhit что за робот. Картинка про Facebookexternalhit что за робот. Фото Facebookexternalhit что за робот

Превращается во что-то такое:

Facebookexternalhit что за робот. Смотреть фото Facebookexternalhit что за робот. Смотреть картинку Facebookexternalhit что за робот. Картинка про Facebookexternalhit что за робот. Фото Facebookexternalhit что за робот

Первое, о чём я подумал, это об SSRF-уязвимости в том или ином виде. Но тесты показали, что урл из этого параметра запрашивается из подсетки 31.13.97.* с юзерагентом facebookexternalhit/1.1. Например:

И всё это похоже на нормальный запрос из изолированной подсетки, которая специально для этого предназначена.

Но в любом случае приложение производит преобразование изображений каким-то конвертером и я стал копать в этом направлении. После нескольких тестов (один из моих любимых, который принёс мне много денег — парсинг и преобразование SVG картинок, которые на самом деле XML файлы, чтобы получить SSRF с сервера, который производит конвертацию, и который далеко не всегда такой же, как север с которого было запрошено изображение или, если мне совсем повезло, получить XXE) я был весьма расстроен. Ни один из них не сработал.

ImageTragick был последней надеждой. Хотя у меня уже надежды не было. Если вы не очень знакомы с подробностями уязвимости и её эксплуатацией или ленивы — здесь вы можете найти готовые PoC.

Вот так выглядит самый простой пэйлоад exploit.png:

Барабанная дробь… и ничего не произошло:

— Но что если… если это всего лишь ограничения firewall’а? — спросил я сам себя.

Ок. Это действительно случается довольно часто, когда компания блокирует обычные http-запросы, но не блокирует запросы DNS. Что ж, попробуем другой пэйлоад:

IP: 31.13.*.*; NetName: LLA1-11
NAME: record_under_attacker_controled_ns_server.attacker.tld, Type: A

Вечеринка начинается 🙂 Таким образом приложение работает следующим образом:

Команда bash `id` возвратила:

Для подтверждения того, что эксплоит работает, я отправил команде безопасности Facebook вывод команды `cat /proc/version`, который не буду показывать здесь.

Уже после того, как я отправил репорт, мы с Нилом из команды безопасности Facebook’а обсудили, что вывод `cat /proc/version | base64` мог бы быть гораздо более удобен для DNS запроса, а более глубокое исследование показало, что в техниках DNS туннелирования обычно используется base32 (подробнее здесь: https://www.sans.org/reading-room/whitepapers/dns/detecting-dns-tunneling-34152).

Я рад быть одним из тех, кто взломал Facebook.

Timeline:
16 Oct 2016, 03:31 am: Первый репорт
18 Oct 2016, 05:35 pm: Нил из команды безопасности запросил PoC, который я использовал во время исследования
18 Oct 2016, 08:40 pm: Я послал PoC и сопроводил его дополнительной информацией
18 Oct 2016, 10:31 pm: Уязвимость подтверждена Нилом
19 Oct 2016, 12:26 am: Нил уведомил, что фикс в процессе выкладки
19 Oct 2016, 02:28 am: Нил сообщил, что уязвимость исправлена
19 Oct 2016, 07:49 am: Я подтвердил, что уязвимость исправлена и запросил процедуру раскрытия
22 Oct 2016, 03:34 am: Нил ответил о процедуре и времени раскрытия
28 Oct 2016, 03:04 pm: Назначено вознаграждение ($40K)
16 Dec 2016: Раскрытие разрешено.

Источник

Drupal Русскоязычное сообщество

Колеги, знаю что вопрос не совсем по друпалу, но прямо связан с использованием большого количества ресурсов оного, друпала то есть.

Комментарии

вкусный сатик, вот и набежали, голодненькие)) ням-ням )
сори за офтоп, не удержался)

Вот прямо сейчас штук 45 толпится, а через час могут еще сотня набежать. С утра уже больше 400 посещений от них получили. И «смотрят» гады по 11-12 страниц на раз. И не все уже кешированы, так что тянут ресурсы, тянут.

Уменьшила в google webmaster tools скорость сканирования сайта. Должно помочь.

настроить кэширование на сайте?)

Сменить пароли!
Ну а далее по лунному календарю

используйте это, только берегите маникюр
Facebookexternalhit что за робот. Смотреть фото Facebookexternalhit что за робот. Смотреть картинку Facebookexternalhit что за робот. Картинка про Facebookexternalhit что за робот. Фото Facebookexternalhit что за робот
поможет однозначно.

Из личного опыта. После установки Varnish’а New Relic в отчетах стал показывать ровные прямые потребления памяти и проца, хотя если посмотреть access.log, то видно на сайте круглосуточно пасутся боты.

RxB, multpix, спасибо спасибо за советы. Пароли я, как полагается, на полную луну поменяла, ну и бекап на всякий случай тоже.

а если это отсутствует, то как минимум не стоит смущать форумчан странными советами, реализуя подход «танец с бубном».

используйте это, только берегите маникюр

Facebookexternalhit что за робот. Смотреть фото Facebookexternalhit что за робот. Смотреть картинку Facebookexternalhit что за робот. Картинка про Facebookexternalhit что за робот. Фото Facebookexternalhit что за робот
вот здесь можно приобрести

Источник

Facebookexternalhit что за робот

Facebookexternalhit что за робот. Смотреть фото Facebookexternalhit что за робот. Смотреть картинку Facebookexternalhit что за робот. Картинка про Facebookexternalhit что за робот. Фото Facebookexternalhit что за робот

Facebookexternalhit что за робот. Смотреть фото Facebookexternalhit что за робот. Смотреть картинку Facebookexternalhit что за робот. Картинка про Facebookexternalhit что за робот. Фото Facebookexternalhit что за робот

Как интернет-магазину садовой техники получить 30 лидов за 10 000 рублей. Кейс

Facebookexternalhit что за робот. Смотреть фото Facebookexternalhit что за робот. Смотреть картинку Facebookexternalhit что за робот. Картинка про Facebookexternalhit что за робот. Фото Facebookexternalhit что за робот

Поиск Яндекса по видео меняет правила работы с партнерами

Facebookexternalhit что за робот. Смотреть фото Facebookexternalhit что за робот. Смотреть картинку Facebookexternalhit что за робот. Картинка про Facebookexternalhit что за робот. Фото Facebookexternalhit что за робот

Здравствуйте! Имеется собственная статистика на сайте. И вот последнее время появляются UserAgent

Это что пытаются взломать сайт, или ничего страшного?

Вчера хостинг прислал письмо что удалили вирус в файле, где были эти строчки.

И еще при открытии антивирус на компьютере ругался на скрипт.

Facebookexternalhit что за робот. Смотреть фото Facebookexternalhit что за робот. Смотреть картинку Facebookexternalhit что за робот. Картинка про Facebookexternalhit что за робот. Фото Facebookexternalhit что за робот

Facebookexternalhit что за робот. Смотреть фото Facebookexternalhit что за робот. Смотреть картинку Facebookexternalhit что за робот. Картинка про Facebookexternalhit что за робот. Фото Facebookexternalhit что за робот

Только то что я написал, стандартной CMS нет

Facebookexternalhit что за робот. Смотреть фото Facebookexternalhit что за робот. Смотреть картинку Facebookexternalhit что за робот. Картинка про Facebookexternalhit что за робот. Фото Facebookexternalhit что за робот

Не стандартная в смысле самописная? Вирус в каком файле удалил и где он лежит?

Могу в самописной найти дыру.

Но эти команды выполняются если только есть разрешение на выполнение system() функции, которая в 99% хостингах запрещена.

Facebookexternalhit что за робот. Смотреть фото Facebookexternalhit что за робот. Смотреть картинку Facebookexternalhit что за робот. Картинка про Facebookexternalhit что за робот. Фото Facebookexternalhit что за робот

В него записываются не распознанные UserAgent.

Вот что есть на данный момент

Значит кто-то все таки ищет как взломать сайт.

Смотрел еще на другом сайте, тоже есть похожее

Стоит задаваться вопросом удалось ли им это.

Если файл /mylog/no_robot.log просто содержит разные строки useragent, то это не значит, что там есть код закладки, который исполняется. Это пока не считается удачный взломом, несмотря на мнение антивируса.

Сережка:
Здравствуйте! Имеется собственная статистика на сайте. И вот последнее время появляются UserAgent

Источник

Список полезных и вредных ботов и краулеров

В этой статье буду рассказывать о ботах, полезных и вредных, чтобы было известно, каких ботов можно блокировать, а какие не стоит. Также в отдельной статье рассказываю о том, как нужно блокировать вредоносных ботов, чтобы снизить нагрузку на сайт.

Иногда буду копаться по логам и искать новых. Здесь только те, что попались на моих сайтах.

Полезные боты и краулеры

В этом списке будут полезные боты и краулеры, а также информация о них, рекомендую ознакомиться, прежде чем блокировать их. Также можете посмотреть информацию. Полезный бот или краулер для одних людей, может быть бесполезен для других.

GrapeshotCrawler/2.0

Oracle Data Cloud Crawler — это автоматизированный краулер от компании Oracle. Нужен для анализа содержимого страниц для рекламодателей. Используется во многих системах назначения ставок в режиме реального времени (RTB ), применяется также и в Adsence, так что блокировка данного бота может плохо сказаться на ваших доходах с рекламы.

Идентифицирует себя так: (compatible; GrapeshotCrawler/2.0; +http://www.grapeshot.co.uk/crawler.php).

Диапазон IP- адресов GrapeshotCrawler/2.0:

от 148.64.56.64 до 148.64.56.80

от 148.64.56.112 до 148.64.56.128

Без необходимости блокировать не рекомендуется, но если у вас нет контекстной рекламы на сайте, то можно избавиться от данного краулера.

Googlebot/2.1 (Робот Googlebot)

Поисковый робот компании Google, выполняет обход и индексирование страниц сайтов. Блокировать нельзя, так как это может плохо сказаться на позициях в поисковой системе Google.

Идентифицирует себя так: (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Если данный робот даёт слишком серьёзную нагрузку на сервер, можете снизить частоту сканирования (https://support.google.com/webmasters/answer/48620).

YandexTurbo/1.0

Краулер для страниц Яндекс Турбо, на сайте появляется только в том случае, если к нему подключены Турбо-страницы. Обходит RSS- фид для Турбо-страниц.

Идентифицирует себя так: (compatible; YandexTurbo/1.0; +http://yandex.com/bots).

Блокировать YandexTurbo/1.0 не рекомендуется, так как это может блокировать отображение Турбо-страниц в Яндекс.

YandexBot/3.0

Поисковой краулер Яндекс, по совместительству основной индексирующий робот. Совершает обход страниц, а также сбор данных, содержащихся на ней. Блокировать не рекомендуется, так как это может негативно сказаться на позициях сайта в поисковой системе Яндекс.

Идентифицирует себя так: (compatible; YandexBot/3.0; +http://yandex.com/bots).

Если данный краулер создаёт слишком сильную нагрузку на сервер, можно ограничить скорость обхода им в настройках Яндекс Вебмастер.

YandexAccessibilityBot/3.0

Проверяет доступность страниц для пользователей, для этого их скачивает. Блокировать не рекомендуется, так как это может плохо сказаться на позициях в ПС Яндекс. Настройки скорости обхода в Яндекс Вебмастер игнорирует.

YandexMetrika/2.0 и YandexMetrika/3.0, YandexMetrika/4.0

Роботы Яндекс Метрики, появляются на сайте только при подключении оной. YandexMetrika/4.0 скачивает стили для Яндекс Метрики для того, чтобы правильно их отображать в Вебвизоре.

YandexPartner/3.0

Скачивает информацию о страницах сайтов, подключённых к Партнёрской сети Яндекс, анализирует на соответствие рекламы и контента, также следит за политикой назначения ставок на конкретных страницах.

ias-va/3.1, ias-jp/3.1

Поисковой краулер ias-va, а также ias-jp/3.1 от компании ADmantX, используется в партнёрской сети AdSense, соответственно, его нельзя блокировать, если используете AdSense на своём сайте. Данный краулер собирает данные о семантике сайта.

Идентифицируются так: ias-va/3.1 (+https://www.admantx.com/service-fetcher.html).

Bingbot

И дентифицирует себя так: (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm).

newspaper/0.2.8

Судя по IP, относится к GoogleUserContent, вполне возможно, занимается сбором контента для рекомендательных систем Google и GoogleNews. Лучше не блокировать.

Mail.RU_Bot/2.0, Mail.RU_Bot/Img/2.0

Индексирующий краулер компании Mail.ru, соответственно, Mail.RU_Bot/2.0 является поисковым краулером, который обходит страницы сайта и добавляет их в индекс поисковой системы.

Mail.RU_Bot/Img/2.0 — бот, который делает обход по изображениям. Оттуда я ещё ни разу не видел трафика на сайте, но всё же лучше не блокировать, особенно если сайт специализируется на медиаконтенте.

vkShare

Бот, который приходит на сайт, если посетитель расшаривает страницу какого-либо сайта в социальную сеть Вконтакте через виджет. Берёт такие данные, как фавиконка сайта, изображение расшариваемой страницы, а также данные, вроде анонса, заголовка.

Идентифицирует себя так: (compatible; vkShare; +http://vk.com/dev/Share).

Если vkShare заблокировать, то расшаривание страниц во Вконтакте не будет корректно работать.

facebookexternalhit/1.1 Facebot Twitterbot/1.0

Краулеры Facebook и Twitter, что, впрочем, ясно из названия, собираю данные ваших расширенных описаний, а также данные со страниц для отображения оных. Есть подозрения, что также проверяет контент на соответствие «Нормам сообществ», но это не точно.

Если необходимое правильное отображение страниц при расшаривании в данные социальные сети, лучше не блокировать.

Mediapartners-Google

Бот, проверяющий сайты-партнёры в Google Adsense. Требуется для правильной обработки контекстной рекламы. Если являетесь партнёром Adsense, блокировать нельзя, так как сие действие может сократить доходы с рекламы.

FeedBurner/1.0

Инструмент Google. Считывает RSS- лент. Для каких целей до конца неясно. Идентифицирует себя так: FeedBurner/1.0 (http://www.FeedBurner.com). Блокировать, конечно, не рекомендуется, но если создаёт сильную нагрузку, то можно.

Плохие боты и краулеры

В этой части будут рассмотрены плохие боты, которые следует заблокировать, чтобы снизить нагрузку на сервер сайта. Но тоже смотрите внимательно, так как некоторые плохие боты могут оказаться полезными конкретно для вашего сайта.

DotBot

Бот компании Moz, собирает статистику о сайтах для коммерческой продажи для клиентов сервиса Moz, данный бот может быть полезен только для тех сайтов, которые работают с Moz по API, в противном случае это лишняя нагрузка на сайты.

Идентифицирует себя так: (compatible; DotBot/1.2; +https://opensiteexplorer.org/dotbot; help@moz.com).

BLEXBot

Собирает SEO- данные о сайте для коммерческой продажи клиентам. Создаёт лишнюю нагрузку, а также делает данные о сайте прозрачными для конкурентов. Рекомендуется блокировать.

Идентифицирует себя так: (compatible; BLEXBot/1.0;).

AhrefsBot

Бот компании Ahfers, занимающейся SEO- аналитикой, собирает данные о вашем сайте (SEO, линкбилдинг, трафик), а потом продаёт её клиентам. Лучше блокировать, так как эти данные могут быть полезными для ваших конкурентов.

Идентифицирует себя так: (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/).

MBCrawler

MBCrawler/1.0 разработан MonitorBacklinks, занимается анализом обратных ссылок и создаёт серьёзную нагрузку на сайты. Очень активен, рекомендуется блокировать, так как может получить много информации об обратных ссылках с вашего сайта. Идентифицирует себя так: (MBCrawler/1.0 (https://monitorbacklinks.com/robot). Лучше блокировать.

YaK/1.0

Это бот компании LinkFluence. Собирает данные о сайтах для дальнейшего коммерческого использования. Соответственно, может быть использован конкурентами против вас. Рекомендуется блокировать.

Идентифицирует себя так: (compatible; YaK/1.0; http://linkfluence.com/; bot@linkfluence.com).

niraiya.com/2.0 (Stolen Passwords Checker Bot)

Бот для проверки украденных паролей от компании Nirariya, компания занимается продажей менеджера паролей. Скорее всего, проверяю сайт на утечки паролей, но бот создаёт лишнюю нагрузку. Лучше блокировать.

Идентифицирует себя так: (compatible; niraiya.com/2.0;)

MegaIndex.ru/2.0

Бот Megaindex.ru, собирает данные о вашем сайте, SEO, обратных ссылках, потом предоставляет эту информацию на коммерческой основе. Бот можно расценить как вредоносный, если не используете его для аналитики собственного сайта. Также делает прозрачным данные о вашем сайте для конкурентов.

Идентифицирует себя так: (compatible; MegaIndex.ru/2.0; +http://megaindex.com/crawler).

MJ12bot

Очередной бот SEO- аналитики, если начал появляться на сайте, то будет его серьёзно грузить. Блокировать MJ12bot следует обязательно. Это бот компании Majestic, впрочем, если работаете на сервисах, связанных с Majestic, то не стоит его блокировать, например, если работаете на биржах ссылок вроде Majestic или Miralinks, то там очень важны показатели Majestic.

SemrushBot

SemrushBot от SEO- сервиса Semrush, периодически создаёт серьёзную нагрузку на сайт, обходя его снова и снова. Данные, которые собирает данный бот, нужны для того, чтобы продавать их на коммерческой основе.

Соответственно, информация, собранная данным ботом, будет доступна конкурентам, что может не пойти вам на пользу.

Cloudfind

Бот от одноимённой компании, ищет парнёров для аффилирования для партнёрского маркетинга. Чаще гуляет по зарубежным площадкам, но периодически появляется и в ру-сегменте.

CriteoBot/0.1

Краулер компании Criteo. По идее должен проверять страницу на соответствие контента маркетинговым целям. Например, анализировать статью по содержанию, а потом отнести к определённой категории.

Идентифицирует себя так: CriteoBot/0.1 (+https://www.criteo.com/criteo-crawler/).

Относится ли к каким-либо партнёрским сетям вроде Adsense или РСЯ не удалось, информации о том, где используется данный краулер, тоже найти не удалось, так что решил CriteoBot/0.1 блокировать.

GetIntent Crawler

Краулер от компании GetIntent. Собирает данные о сайтах для маркетинговых целей, например, для анализа перспектив размещения контекстной рекламы. С какими рекламными платформами сотрудничает, неизвестно, информации о том, работает данный краулер с AdSense или РСЯ найти не удалось, так что решил его заблокировать.

SafeDNSBot

Бот от компании SafeDNS, компания позиционирует себя как средство защиты от вредоносных сайтов и периодически проверяет сайты на безопасность. Нагрузку на сайт создаёт небольшую, так что можно и не блокировать.

SeopultContentAnalyzer/1.0

Бот компании PromoPult (бывш. SeoPult ), собирает SEO- данные сайта вроде обратных ссылок, ключевых слов сайта и т. п. Соответственно, собранные данные будут анализировать и предоставляться вашим конкурентам на коммерческой основе. Бота SeopultContentAnalyzer/1.0 рекомендуется блокировать.

serpstatbot/2.0

Бот от известной платформы Serpstat. Постоянно анализирует сайты на наличие обратных ссылок. Полученную информацию использует в коммерческих целях, предоставляя её в рамках своего сервиса. Соответственно, помимо дополнительной нагрузки на сервер, предоставляет больше информации о вашем сайте конкурентам. Рекомендуется блокировать.

LinkpadBot

Бот сервиса LinkPad. LinkpadBot собирает информацию о ссылочном профиле вашего сайта для коммерческого использования, соответственно, ваши конкуренты могут получить данные о ссылках, которые вы размещаете на сайте, а также будут дискредитированы сетки сайтов-сателлитов. Лучше данного бота блокировать.

Slurp

Поисковой краулер Yahoo! За особым беспределом не замечен, но в СНГ с него трафика практически нет, соответственно, особой пользы от Slurp Bot не будет. Лучше заблокировать, ибо иногда начинает активно обходить сайты.

Если сайт ориентирован на зарубежную аудиторию, лучше оставить.

DataForSeoBot/1.0

Бот сервиса DataForSeo, занимается проверкой обратных ссылок и анализом сайта для дальнейшего использования в коммерческих целях, например, для предоставления SEO- данных вашего сайта конкурентам.

Пользы от DataForSeoBot/1.0 нет, лучше блокировать.

Rome Client (http://tinyurl.com/64t5n)

Неизвестно, что за краулер этот Rome Client, толком и не нашёл о нём информации. Судя по IP, запросы идут с сервиса Amazon AWS. Ориентируется именно на Feed сайта, вполне возможно, что выгружает его для своих целей. Так как неизвестно, что это за бот и какие цели преследует, лучше его блокировать.

Scrapy

Бот Scrapy разработан для того, чтобы обходить сайты с открытым исходным кодом и вытаскивать с них данные. Зачем? Цели могут быть разные, как хорошие, так и плохие. В общем, данного бота лучше блокировать.

FlipboardRSS

Бот платформы Flipboard, берёт вашу RSS- ленту для публикации. В целом не вредоносный, даже необходимый, если вы публикуете свои материалы на Flipboard, проблем в том, что вашу RSS- ленту на данном сервисе может опубликовать кто угодно. Вы не получите оттуда трафика, зато получите периодический обход ботом.

FlipboardProxy

Тоже от FlipBoard, фактически проверяет ваш сайт, а также анализирует, как он выглядит. Нужен для отображения материалов на Flipboard. Если трафика с этого сервиса нет, можно бота блокировать.

Proximic Bot

Иногда в логе можно видеть этого бота, идентифицирует себя так: (compatible; proximic; +https://www.comscore.com/Web-Crawler).

Занимается сопоставлением соответствия контента и контекстной рекламы. Работает ли с AdSense или РСЯ неизвестно, соответственно, не могу отнести его к полезным, вполне возможно, что этот бот просто собирает информацию для проектов и «тренируется» на сторонних сайтах, чтобы точнее определять тематику данных на разных языках.

ZoominfoBot

Единственные данные в строке идентификации: (zoominfobot at zoominfo dot com). Собирает только деловую информацию с сайта, как правило, вытягивает весь фид сайта. Для русскоязычной аудитории практически бесполезен.

Информацию собирает в коммерческих целях, для агрегации и предоставления своим пользователям на коммерческой основе. Лучше блокировать.

SeznamBot/3.2

Краулер чешской поисковой системы Seznam. Если у вас сайт не на чешском языке, толку, скорее всего, от него никакого. Да и посетителей на этом «поисковике» нет. В общем, за всю жизнь моего сайта не видел оттуда ни одного посетителя, соответственно, считаю этот бот вредным и рекомендую его блокировать.

Seekport Crawler

Краулер очередного «недопоиска». Трафика с него не видно, перспектив у данной поисковой системы тоже нет, информации о ней практически никакой.

Идентифицирует себя так: (compatible; Seekport Crawler; http://seekport.com/).

Думаю, мало смысла пускать их краулер к себе на сайт, перспектив мало, особенно для СНГ.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *