Для чего нужен парсинг сайтов

Руководство по парсингу веб-сайтов в 2021 году

Меня зовут Максим Кульгин и моя компания xmldatafeed занимается парсингом сайтов в России порядка четырех лет. Ежедневно мы парсим более 500 крупнейших интернет-магазинов в России и на выходе мы отдаем данные в формате Excel/CSV и делаем готовую аналитику для маркетплейсов. Тема парсинга в последнее время становится все более востребованной и в этой статье мы хотим дать общий обзор подходов и механизмов парсинга данных, учитывая правовые особенности.

За последнее десятилетие данные стали ресурсом для развития бизнеса, а Интернет — их основным источником благодаря пяти миллиардам пользователей, формирующим миллиарды фрагментов данных каждую секунду. Анализ данных Всемирной паутины может помочь компаниям выявлять скрытые закономерности, позволяющие им добиваться выполнения своих целей. Однако сбор большого объема данных — непростая для компаний задача, особенно для тех, которые думают, что кнопка «Экспортировать в Excel» (если такая присутствует) и обработка данных вручную — единственные способы сбора данных.

Парсинг веб-сайтов позволяет компаниям автоматизировать процессы сбора данных во Всемирной паутине, используя ботов или автоматические скрипты, называемые «обходчиками» веб-страниц, автоматическими сборщиками данных или веб-сборщиками (web crawlers). В этой статье раскрыты все важные аспекты парсинга веб-сайтов, включая понятие парсинга, почему он важен, как он работает, варианты применения, а также сведения о поставщиках парсеров и руководство по доступным к покупке программным продуктам и услугам.

Парсинг веб-сайтов, который также называют сбором/извлечением данных, скрейпингом данных или содержимого экрана, добычей данных/интернет-данных и иногда обходом/сканированием Всемирной паутины, — это процесс извлечения данных из веб-сайтов.

Процесс парсинга веб-сайтов включает в себя отправку запросов на получение веб-страницы и извлечение из нее машиночитаемой информации.

Всё более широкое использование аналитики данных и автоматизации — существенные тенденции бизнеса. Парсинг веб-сайтов может стать движущей силой для обеих тенденций. Помимо этих причин, у парсинга веб-сайтов есть множество применений, которые могут повлиять на все отрасли. Парсинг веб-сайтов дает компаниям возможность:

Эти факторы объясняют возрастающий интерес к парсингу веб-сайтов, который можно наблюдать в Google Trends на представленном выше изображении.

Обычно процесс парсинга веб-сайтов состоит из следующих последовательных шагов:

Распространенные варианты применения парсинга веб-сайтов перечислены ниже.

Чтобы называться компаний по парсингу веб-сайтов, поставщик подобных программных решений должен предоставлять возможность извлечения данных из множества интернет-ресурсов и возможность экспорта извлеченных данных в различные форматы. Да, сфера парсинга веб-сайтов переполнена, и есть разные способы решения задач по парсингу веб-сайтов на корпоративном уровне.

Фреймворки с открытым исходным кодом делают парсинг веб-сайтов дешевле и проще для личного использования. Наиболее широко используемые инструменты: Scrapy, Selenium, BeautifulSoup и Puppeteer.

Пользователи могут собирать информацию, используя библиотеки наподобие Selenium, чтобы автоматизировать этот процесс. Когда на веб-странице есть список, то чаще всего есть и другие страницы, помимо той, которая сразу отображается пользователю. Пример — веб-страницы с «бесконечной прокруткой». Например, предположим, что вы просматриваете веб-страницы YouTube. На веб-странице, которую вы просматриваете, среди всех перечисленных видео не оказалось такого, который вы бы захотели посмотреть. Затем вам нужно прокрутить список вниз, чтобы появились следующие видео. Selenium позволяет пользователям автоматизировать перемещение по последующим страницам списка и сканирование требуемой информации о каждом элементе списка. Далее пользователи могут сформировать набор данных, содержащий информацию о каждом элементе списка, представленного на веб-сайте. Например, можно создать набор данных о фильмах, в который будут входить наименования, рейтинги IMDb, актеры и позиции фильмов в топе 250 IMDb, сканируя список лучших фильмов по версии IMDb с помощью инструментов с открытым исходным кодом наподобие Scrapy.

Хотя на рынке есть различные проприетарные решения, продукты разделены на два типа:

Хотя парсить данные со своего собственного веб-сайта нетрудно, эта задача будет более сложной на веб-сайтах, стремящихся противодействовать сканированию своего контента роботами, которые не относятся к роботам поисковых систем. Как следствие, передовые парсеры собирают данные с использованием набора различных IP-адресов и цифровых подписей, действуя не как автоматический программный робот, а как группа пользователей, просматривающих веб-сайт.

Полностью управляемые услуги по парсингу веб-сайтов, также называемые «данные-как-услуга» (data-as-a-service, DaaS), будут более удобны для компаний, которым нужен широкомасштабный сбор данных. Работа с веб-сервисами, предоставляющими такие услуги, обычно выглядит так:

Такие компании, как Yipitdata, PromptCloud и ScrapeHero, — некоторые из поставщиков, предлагающих полностью управляемые услуги по парсингу веб-сайтов.

Используя готовое существующее программное обеспечение (ПО) с открытым или закрытым исходным кодом и навыки программирования, любая компания может создавать качественные парсеры веб-сайтов. При условии, что у компании есть технический персонал для осуществления этой задачи, и что парсинг необходим для реализации стратегически важного проекта, собственную разработку можно считать оптимальным вариантом.

Выбор подходящего инструмента или веб-сервиса для сбора данных во Всемирной паутине зависит от различных факторов, включая тип проекта, бюджет и наличие технического персонала. Чтобы кратко охарактеризовать представленную выше схему принятия решения, правильный ход мыслей при выборе автоматического сборщика данных должен быть таким:

Коротко говоря, если: при парсинге собираются общедоступные данные, парсинг не наносит вред компании-владельцу данных, среди собранных данных нет персональных и при повторной публикации собранных данных добавляется ссылка на источник, то, по всей видимости, заниматься парсингом законно. Однако это не юридическое заключение, поэтому, пожалуйста, обратитесь к профессиональному юристу за конкретной консультацией.

Законность парсинга ранее долгое время была неоднозначной, но сейчас в этом вопросе больше ясности. В настоящее время нормативно-правовые акты, регулирующие конфиденциальность персональных данных, наподобие GDPR Европейского союза и CCPA в Калифорнии не препятствуют парсингу веб-сайтов. В России недавно приняли дополнительные поправки в закон об Персональных данных. Просто убедитесь, что:

Говоря о компаниях, Апелляционный суд девятого округа США после иска LinkedIn против hiQ постановил, что автоматический парсинг общедоступных данных, очевидно, не нарушает Закон о компьютерном мошенничестве и злоупотреблении (Computer Fraud and Abuse Act, CFAA).

Тем не менее при использовании парсинга веб-сайтов действуют ограничения.

При оценке законности парсинга учтите также, что каждый результат поиска, который вы видите на страницах поисковых систем, был собран ею. Помимо этого, сообщается, что хедж-фонды тратят миллиарды на сбор данных, чтобы принимать более эффективные инвестиционные решения. Поэтому парсинг — это не сомнительная практика, которую применяют только небольшие компании.

Почему владельцы веб-сайтов хотят защитить их от парсинга?

Отчет 2020 от imperva о нежелательных программных роботах, собирающих данные

Распространенные и наиболее успешные приемы парсинга веб-сайтов:

Многие администраторы крупных веб-сайтов применяют инструменты для защиты от роботов. Роботам приходится обходить их, чтобы просканировать большое количество HTML-страниц. Использование прокси-серверов и отправка запросов через разные IP-адреса могут помочь преодолеть эти трудности.

Переход от статического IP-адреса на динамический также может оказаться полезным для того, чтобы парсер не обнаружили и не заблокировали.

Следует ограничить частоту отправки запросов на один и тот же веб-сайт по двум причинам:

Согласно GDPR, незаконно собирать личную информацию (personally identifiable information, PII) резидентов ЕС, если только у вас нет их явного на это согласия.

Если вы собираетесь собирать данные на веб-сайте, где требуется проходить авторизацию, вам нужно принять пользовательское соглашение (Terms & Conditions), чтобы зарегистрироваться там. Некоторые пользовательские соглашения включают в себя принципы компаний, связанные с парсингом данных, в соответствии с которыми вам не разрешается парсить любые данные на веб-сайте.

Однако даже несмотря на то, что пользовательское соглашение LinkedIn однозначно запрещает парсинг данных, как упоминалось выше, парсинг LinkedIn пока еще не нарушает закон. Мы не дает юридическое заключение и не беремся однозначно разъяснять смысл пользовательских соглашений компаний.

Парсинг превращается в игру в кошки-мышки между владельцами контента и его сборщиками — обе стороны тратят миллиарды на преодоление мер, разработанных другой стороной. Можно ожидать, что обе стороны будут использовать машинное обучение для создания более продвинутых систем.

Открытый исходный код играет важную роль в разработке ПО, в том числе в области разработки парсеров. Кроме того, популярность Python растет, и она уже довольно высока. Можно ожидать, что библиотеки с открытым исходным кодом, как например: Selenium, Scrapy и Beautiful Soup, которые работают на Python, будут в ближайшем будущем формировать подходы к парсингу веб-сайтов.

Вместе с библиотеками с открытым исходным кодом интерес к искусственному интеллекту (ИИ) делает будущее более радужным, поскольку системы на основе ИИ в значительной степени полагаются на данные, а автоматизация сбора данных может содействовать различным вариантам применения ИИ с тренировкой на общедоступных данных.

Источник

10 способов применения парсинга сайтов

Представляя компанию по парсингу сайтов, я хочу рассказать вам о разных способах использования парсинга. В этой статье вы узнаете, где и с какой целью используется парсинг сайтов, а также как парсинг помогает решить различные проблемы и оптимизировать бизнес.

Все примеры основаны на личном опыте в работе с парсингом.
Давайте начнем.

В двух словах, с помощью парсинга можно получать информацию из других источников в автоматическом режиме.

Современный интернет имеет избыток информации, которую невозможно обработать вручную. Поэтому, основное назначение парсинга в том, чтобы автоматизировать все процессы получения, структурирования и обработки данных в нужный формат. Этот процесс, в свою очередь, позволяет повышать конверсию и получать больше звонков, заказов, продаж и т.д.

В действительности, способов применения парсинга очень много. Здесь рассказывается только о самых действенных и популярных из них.

Парсинг часто используется для работы с товарами интернет-магазина. Товары собираются в Excel-базу и успешно импортируются в интернет-магазин. При импорте будут загружены изображения, удалены старые товары и обновлены существующие. Так, каталог сайта всегда будет актуальным.

Даже в небольших интернет-магазинах, парсинг значительно облегчает ручную работу менеджера. Это особенно чувствуется, когда товаров несколько тысяч.

Нередко парсинг применяется для скачивания товаров с зарубежных ресурсов. В процессе парсинга дополнительно подключается автоматизированный переводчик, который формирует практически уникальные тексты. С русскоязычных сайтов так же можно парсить товары, применяя специальный синонимайзер для повышения уникальности текстов.

Успешность бизнеса зависит от многих факторов, в том числе и от ценовой политики компании. Клиенты могут отдавать приоритет тем компаниям, которые предоставляют товары или услуги дешевле, чем у вас. Поэтому нужно постоянно мониторить конкурентов и знать, по каким ценам предоставляются услуги на рынке.

Сейчас услуги по мониторингу цен конкурентов предоставляются повсеместно. Принцип таких сервисов достаточно простой. Данные о ваших товарах сохраняются в Excel-файл. Парсинг добавляет в этот же файлик информацию о ценах из других интернет-магазинов. В итоге у вас есть сравнительная таблица, ориентируясь на которую, вы можете своевременно принимать решения.

Выполнять такую работу вручную, мягко сказать, неразумно. Эта деятельность занимает слишком много времени, неэффективна и нерентабельна.

Парсинг может без труда создавать базы компаний по вашему городу, региону и даже по всей России. В таких базах содержится открытая информация с официальных веб-сайтов, например: email-адрес, номер телефона, ИНН/ОГРН, название компании, географический адрес, URL-адрес и т.д.

На сайтах можно скачать уже готовые базы, заранее созданные и подготовленные для работы. Например, в «Парсик» есть базы таких компаний, как: поставщики, оптовые компании, производители, строительные организации и т.д.

Такие базы успешно используются для email-рассылок с коммерческим предложением. Разумеется, эта деятельность не очень приятна многим владельцам почтовых ящиков, однако, многие email-адреса являются корпоративными и такая рассылка при ненавязчивом подходе — вполне действенный инструмент привлечения клиентов.

Вот один из примеров, когда к нам обратился клиент.

Человек занимается продажей, монтажом и обслуживанием камер видеонаблюдения. В число его клиентов входят компании, которые арендуют или просто пользуются складскими помещениями, в которых идет работа с загрузкой, выгрузкой товаров, контролем работы кладовщиков и т.д.

Для рассылки можно использовать подходящие по тематике базы, такие как базы логистических компаний, складов, коммерческих помещений, офисов, производственных площадей и т.д. Мы собрали для клиента 4520 компаний по Москве и Московской области.

Базы могут иметь расширенные данные о владельце компании и учредителях, финансовых данных, долгах, уставном капитале, посещаемости сайта, технических данных сайта и т.д. Эту информацию можно использовать в совершенно разных направлениях бизнеса.

Существует еще один эффективный способ привлечения потенциальных клиентов, как демпинг.

Демпинг — искусственное снижение цен на товары и услуги с целью проникновения, укрепления и вытеснения конкурентов на рынке.

Такие товары значительно дешевле товаров конкурентов, поэтому пользуются большим спросом. Демпинговые товары продаются массово, тем самым увеличивая рейтинг магазину, число продаж, отзывов, популярность и т.д. После этого магазин восстанавливает цены на товары, а заработанный рейтинг уже работает на магазин.

Затраты на парсинг и убытки с продаж товаров по демпинговым ценам окупаются за счет того, что в будущем популярный магазин сможет иметь большее число клиентов, продаж и прибыли соответственно.

В парсинге особенно нуждаются сайты с «горячим» и часто-обновляемым контентом. Как правило, это городские и новостные порталы, киносайты, сайты-агрегаторы компаний, площадки с результатами спортивных соревнований, сайты для бронирования гостиниц и покупки билетов и т.д.

Информация для таких сайтов собирается из разных источников. Курсы валют и прогноз погоды можно без проблем получить через публичный API. Однако, API не предусмотрен для большинства неоднородных данных, поэтому парсинг является наиболее подходящим способом их получения.

На сайтах-агрегаторах сконцентрировано, упорядочено и удобно представлено действительно много информации, поэтому такие сайты имеют большую посещаемость. С помощью парсинга, страницы таких сайтов создаются в автоматическом режиме.

Одним из секретов успеха многих лидеров рынка, является парсинг с целью анализа информации.

Расскажу на реальном примере.

Клиент продает свои товары на Wildberries. Ему необходимо регулярно получать отчет с аналитическими данными по каждому товару. Отчет должен содержать ежедневные данные о количестве продаж, проценте выкупа, рентабельности, позициях каждого товара в определенных категориях и поисковой выдачи по ключевым словам, текущем рейтинге, отзывам и еще по более 20 параметрам.

Ежедневный отчет позволяет сравнивать разные показатели и понять, например, почему вчера товар занимал более высокие позиции, чем сегодня. Причиной могли быть негативные отзывы покупателей, больший процент возврата товара или просто, конкурент выставил такой же товар с более качественным описанием и фотографиями.

Используя эту информацию, клиент понимает, что нужно делать, продумывает стратегию продаж, пересчитывает рекламный бюджет и т.д.

Существуют такие категории сайтов, запуск которых невозможен без наличия больших объемов контента еще на начальных этапах. Без этого сайт абсолютно бесполезен для пользователей. К таким сайтам относятся доски объявлений, каталоги компаний, форумы, новостные порталы, информационные сайты и т.д. Но где взять сразу много контента, когда сайт еще не имеет аудитории? Решением будет использование парсинга, который автоматически соберет нужные вам данные из разных источников.

Задайте себе вопрос, стали бы вы размещать объявление на новом сайте, который имеет от силы 1000 объявлений по всей стране? Другое дело обстоит с досками объявлений, которые насчитывают сотни тысяч предложений по разным городам, регионам, просмотрами.

Чтобы заполнить такую площадку объявлений и сделать видимость активности на ней, досточно просто сделать парсинг авито, импортировать эти данные на сайт, запустить сайт в работу, а затем, постепенно вытеснять загруженные объявления своими.

Название говорит само за себя — это парсинг своего сайта. Но зачем вообще парсить собственный сайт? Хороший и логичный вопрос. На это есть множество причин.

Самопарсинг применяется для поиска технических проблем сайта и недочетов в SEO. Например:

Цель самопарсинга аналогична UNIT-тестам программного кода. Запускаешь проверку и через пол часа получаешь информативный отчет по каждой странице сайта. Такой способ позволяет поддерживать чистоту и порядок на сайте и является хорошим инструментом для веб-матеров. Дополнительно, самопарсинг можно применять для составления технического задания фрилансерам.

Парсинг является хорошим помощником для SEO-специалистов, веб-студий и онлайн-сервисов по продвижению сайтов.

Для продвижения в интернете можно и нужно пользоваться рекомендациями для веб-мастеров от Яндекс и Google. Только этих рекомендаций недостаточно для эффективного продвижения, потому, что советы описаны, мягко сказать, в общих чертах. А чтобы на самом деле узнать как работает поисковая выдача и какие показатели наиболее важны для ранжирования, используется парсинг.

Например, можно запустить парсер, собрать статистическую информацию сотен тысяч сайтов и проанализировать ее. Пример таких данных: длина текстов, заголовков, описаний, водность текста и частота ключевых слов, наличие изображений, ссылочная масса и т.д.

После парсинга и анализа выявляются закономерности, например:

Далее, следует стремиться к созданию страниц своего сайта с учетом этих соображений.

Многие популярнейшие блоги экспертов успешно проводили такие эксперименты и использовали их в своих целях.

Сегодня в социальных сетях многие предприниматели строят целый бизнес. Ведь в них сосредоточена огромная аудитория разных интересов, взглядов, потребностей. Даже обычный поиск внутри площадки позволяет довольно просто получить нужных вам потенциальных клиентов.

Но, для того, чтобы выжать из социальных сетей максимум, нужно выйти за пределы интерфейса социальной сети. Парсинг позволяет получить гораздо более подходящую и склонную к покупке аудиторию.

Например, можно найти:

Базы, полученные с помощью парсинга, можно применять для совершенно разных целей. Например, для массового приглашения в группы, рассылок, фолловинга, лайкинга, таргетированной рекламы и т.д.

Парсинг можно использовать практически для любого проекта и на любой стадии развития. Причем, затраты на разработку парсера оправданы в сравнении с временными затратами на ручную работу.

Возможно, после прочтения, у вас появится идея, как применить парсинг в вашем проекте и упростить многие задачи.

Пишите в комментариях, пользуетесь ли вы парсингом и делитесь мнением.

Источник

Правда про парсинг сайтов, или «все интернет-магазины делают это»

1. Что такое парсинг?

Раскрою вам тайну: парсингом занимаются все… По крайней мере, все крупные игроки на рынке. Пару лет назад в одной из статей в Ведомостях представители “М-видео”, “Связного” и “Ситилинка” даже в открытую говорили об этом в ответ на интерес ФАС (см. тут).

2. Для чего парсинг нужен?

В первую очередь, целью парсинга является ценовая «разведка», ассортиментный анализ, отслеживание товарных акций. “Кто, что, за сколько и в каких количествах продаёт?” – основные вопросы, на которые парсинг должен ответить. Если говорить более подробно, то парсинг ассортимента конкурентов или того же Яндекс.Маркет отвечает на первые три вопроса.

С оборотом товара несколько сложней. Однако, такие компании как “Wildberries”, “Lamoda“ и Леруа Мерлен, открыто предоставляют информацию об ежедневных объемах продаж (заказах) или остатках товара, на основе которой не сложно составить общее представлении о продажах (часто слышу мнение, мол эти данные могут искажаться намеренно — возможно, а возможно и нет). Смотрим, сколько было товара на складе сегодня, завтра, послезавтра и так в течении месяца и вот уже готов график и динамика изменения количества по позиции составлена (оборачиваемость товара фактически). Чем выше динамика, тем больше оборот.

Для чего нужен парсинг сайтов. Смотреть фото Для чего нужен парсинг сайтов. Смотреть картинку Для чего нужен парсинг сайтов. Картинка про Для чего нужен парсинг сайтов. Фото Для чего нужен парсинг сайтов

Потенциально возможный способ узнать оборачиваемость товаров с помощью ежедневного анализа остатков сайта Леруа Мерлен.

Можно, конечно, сослаться на перемещение товаров между точками. Но суммарно, если брать, например, Москву — то число не сильно изменится, а в существенные передвижения товара по регионам верится с трудом.

С объемами продаж ситуация аналогична. Есть, конечно, компании, которые публикуют информацию в виде много/мало, но даже с этим можно работать, и самые продаваемые позиции легко отслеживаются. Особенно, если отсечь дешёвые позиции и сфокусироваться исключительно на тех, что представляют наибольшую ценность. По крайней мере, мы такой анализ делали – интересно получалось.

Во-вторых, парсинг используется для получения контента. Здесь уже могут иметь место истории в стиле “правовых оттенков серого”. Многие зацикливаются на том, что парсинг – это именно воровство контента, хотя это совершенно не так. Парсинг – это всего лишь автоматизированный сбор информации, не более того. Например, парсинг фотографий, особенно с “водяными знаками” – это чистой воды воровство контента и нарушение авторских прав. Потому таким обычно не занимаются (мы в своей работе ограничиваемся сбором ссылок на изображения, не более того… ну иногда просят посчитать количество фотографий, отследить наличие видео на товар и дать ссылку и т.п.).

Касательно сбора контента, интересней ситуация с описаниями товаров. Недавно нам поступил заказ на сбор данных по 50 сайтам крупных онлайн-аптек. Помимо информации об ассортименте и цене, нас попросили “спарсить” описание лекарственных аппаратов – то самое, что вложено в каждую пачку и является т.н. фактической информацией, т.е. маловероятно попадает под закон о защите авторских прав. В результате вместо набора инструкций вручную, заказчикам останется лишь внести небольшие корректировки в шаблоны инструкций, и всё – контент для сайта готов. Но да, могут быть и авторские описания лекарств, которые заверены у нотариуса и сделаны специально как своего рода ловушки для воришек контента :).

Рассмотрим также сбор описания книг, например, с ОЗОН.РУ или Лабиринт.ру. Здесь уже ситуация не так однозначна с правовой точки зрения. С одной стороны, использование такого описания может нарушать авторское право, особенно если описание каждой карточки с товаром было нотариально заверено (в чём я сильно сомневаюсь — ведь может и не быть заверено, исключение — небольшие ресурсы, которые хотят затаскать по судам воров контента). В любом случае, в данной ситуации придётся сильно «попотеть», чтобы доказать уникальность этого описания. Некоторые клиенты идут еще дальше — подключают синонимайзеры, которые «на лету» меняют (хорошо или плохо) слова в описании, сохраняя общий смысл.

Ещё одно из применений парсинга довольно оригинально – “самопарсинг”. Здесь преследуется несколько целей. Для начала – это отслеживание того, что происходит с наполнением сайта: где битые ссылки, где описания не хватает, дублирование товаров, отсутствие иллюстраций и т.д. Полчаса работы парсера — и вот у тебя готовая таблица со всеми категориями и данными. Удобно! “Самопарсинг” можно использовать и для того, чтобы сравнить остатки на сайте со своими складскими остатками (есть и такие заказчики, отслеживают сбои выгрузок на сайт). Ещё одно применение “самопарсинга”, с которым мы столкнулись в работе — это структурирование данных с сайта для выгрузки их на Яндекс Маркет. Ребятам так проще было сделать, чем вручную этим заниматься.

Также парсятся объявления, например, на ЦИАН-е, Авито и т.д. Цели тут могут быть как перепродажи баз риелторам или туроператорам, так и откровенный телефонный спам, ретаргетинг и т.п. В случае с Авито это особенно явно, т.к. сразу составляется таблица с телефонами пользователей (несмотря на то, что Авито подменяет телефоны пользователей для защиты и публикует их в виде изображения, от поступающих звонков все равно никуда не уйти).

3. “Что в резюме тебе моем?” или парсинг HH.RU

В последнее время стали актуальны запросы на парсинг Headhunter-а. Правда сначала люди просят продать им “базу Хедхантера”. Но, когда уже понимают, что никакой базы у нас нет и быть не может, мы переходим к разговору о парсинге в их профиле (“под паролем”). Это своеобразное направление парсинга и, честно говоря, нам оно не особо интересно, однако рассказать о нём стоит.

В чём тонкость? Клиент предоставляет доступ к своему аккаунту и ставит задачу по сбору данных под свои нужды. Т.е. он уже оплатил доступ к базе HH и, подписывая с нами договор, ставит нам задачу на автоматический сбор информации в его интересах и под его аккаунтом, что находится полностью под его ответственностью. В случае, если HH зафиксирует ненормальную активность, аккаунт будет заблокирован. Потому мы стараемся как можно лучше сымитировать человеческую деятельность при сборе данных.

Если бы HH (насколько знаю “успешно” проваливший свои эксперименты с API) сам предоставлял (продавал) данные в табличке по регионам, скажем, контакты всех работающих в данный момент директоров по маркетингу в Москве, к нам бы никто и не приходил. А пока это приходится делать человеку “ручками”, к нам идут. Ведь, когда у тебя есть такая таблица, заниматься рекламным спамом – холодными звонками намного удобнее.

Подчеркну ещё раз, у нас нет базы HH, мы просто собираем данные для каждого клиента под его нужды, его аккаунтом и его ответственностью. И нарушение договора оферты не связано с использованием сайта парсящей стороной. Подписывая с нами договор, клиент получает за прогон контакты порядка 450-ти ЛПР-ов, которые мы положим к нему на сервер, и дальше уже его отдел продаж сам решит, что с этим делать. Эх, мы бы тоже “спамили”, если б у нас была такая база. Шучу 🙂

Хотя, лично я считаю, что нет перспектив в парсинге под паролем. А вот парсинг открытых ресурсов – это другое дело. Ты один раз настроил всё и парсишь постоянно, потом перепродаешь доступ ко всем собранным данным. Это более перспективно.

4. Парсинг вообще законен?

В российском законодательстве нет статьи, запрещающей парсинг. Запрещен взлом, DDOS, воровство авторского контента, а парсинг – это ни то, ни другое, не третье и, соответственно, он не запрещен.

Некоторые люди воспринимают парсинг как DDOS-атаку и относятся к нему с сомнением. Однако, это совершенно разные вещи, и при парсинге мы, напротив, стараемся как можно меньше нагружать целевой сайт и не навредить бизнесу. Как в случае со здоровым паразитизмом – мы не хотим, чтобы бизнес «отбросил копыта», иначе нам не на чем будет “паразитировать”.

Обычно просят парсить крупные сайты, из топа 300-500 сайтов России. На таких сайтах посещаемость, как правило, несколько миллионов в месяц, может даже и больше. И на таком фоне парсинг одного товара в секунду или в две практически незаметен (нет смысла чаще парсить, 1-2 секунды на товар — это оптимальная скорость для крупных сайтов). Соответственно, и намека на DDOS-атаку в наших действиях нет. Очень редко люди просят чтобы мы обновляли, например, весь сайт БЕРУ.РУ за сутки — это, скажем прямо, перебор и слишком высокая нагрузка на сайт… обычно занимает 3-4 дня.

Напомню, что парсинг – это лишь сбор того, что мы можем своими глазами увидеть на сайте и скопировать к себе руками. Таким образом, под статью об авторском праве могут попасть лишь действия с уже собранной информацией, т.е. действия самого заказчика. Просто человек это делает долго медленно и с ошибками, а парсер – быстро и не ошибается. Что же делать, когда речь касается сбора данных с AliExpress или Wildberies? Человеку просто не под силу такая задача, и парсинг – единственный выход.

Правда, недавно попросили парсить сайт государственной организации – суда, если не ошибаюсь. Там в открытом доступе вся информация, но мы (на всякий случай) отказались. 🙂

5. “Вы чего нас парсите, мы же заказчик” или в чем разница между парсингом и мониторингом цен?

Мониторинг цен – одно из наиболее востребованных направлений применения парсинга. Но с ним не всё так просто – поработать в данном случае придётся не только нам, но и самому клиенту.

При заказе на мониторинг цен мы сразу предупреждаем, что будем парсить не только конкурентов, но и заказчика. Это необходимо для получения схожих таблиц с товарами и ценами, которые мы сможем обновлять автоматически. Однако, сами по себе такие данные не несут ценность, пока они не связаны между собой (так называемый матчинг товаров). Некоторые позиции с разных сайтов мы можем сопоставить автоматически, но, к сожалению, на данный момент “машины” еще не так хороши, чтобы сделать это гарантированно без ошибок, и лучше человека (например, работающего удаленно на полставки сотрудника из регионов) это никто не сделает.

Если бы все выводили штрих-код на сайте, то вообще было бы замечательно, и мы могли бы делать все “связки” автоматически. Но, к сожалению, так это не так, и даже названия продуктов разные компании пишут по-разному.

Хорошо, что такую работу необходимо провести единожды, а потом периодически перепроверять и вносить небольшие корректировки, если требуется. При наличии связок мы уже можем обновлять такие таблицы автоматически. К тому же, обычно людям не требуется мониторить цены на всё: есть условно 3-5 тысяч позиций, которые в топе, а мелочь не представляет интерес. И оператор из региона легко сможет выполнять такую работу за деньги порядка 10 000 рублей в месяц.

Самый удачный и правильный кейс в данном случае, на мой взгляд, загружать полученный прайс лист конкурентов сразу к себе в 1С-ку (или другую ERP систему) и там уже выполнять сопоставление. Так мониторинг цен легче всего внедрить в ежедневную деятельность своих аналитиков. А без анализа такой парсинг никому и не нужен.

6. Как защититься от парсинга?

Да никак. И стоит ли вообще защищаться от парсинга? Я бы не стал. Работающей 100% защиты всё равно нет (точнее, мы еще не встречали), так что особого смысла пытаться защититься я не вижу. Лучшая защита от парсинга – это просто выложить готовую таблицу на сайте и написать – берите отсюда, обновляем раз в пару дней. Если люди так будут делать, то у нас хлеба не будет.

К слову говоря, недавно созванивались с IT директором крупной сети – они хотели протестировать свою защиту от парсинга. Я его напрямую спросил, почему они так не делают. Как технический специалист он прекрасно понимает, что никакая защита от парсинга не спасёт, лишь отпугнет дилетантов; а вот компании, которые зарабатывают на парсинге, вполне могут позволить себе исследовательскую деятельность в этом направлении – долго и мучительно разбираться в новой защите, и в итоге ее обойти…

Как правило, все используют однотипные защиты, и такое исследование пригодится еще не раз. Так вот, оказалось, что отдел маркетинга не готов к такому: “Зачем нам упрощать жизнь конкурентам?” Казалось бы, логично, но… В результате компания будет тратить деньги на защиту, которая не поможет, а паразитная нагрузка на сайт – останется. Хотя, справедливости ради, стоит отметить, что от «студентов» изучающих python и парсящих все что «шевелится» вполне может помочь.

Кстати, и “Яндекс”, и “Google” занимаются парсингом: они заходят на сайт и индексируют его – собирают информацию. Только все хотят, чтобы “Яндекс” и “Google” индексировали их сайты по понятным причинам, и никто не хочет, чтобы их парсили 🙂

7. “Я тут бесплатно поискал. ” или история про авиабилеты

Однажды к нам обратились с интересным заказом на тестовый парсинг. Компания занимается авиабилетами и им были интересны цены конкурентов на пару самых популярных направлений. Задача оказалась нетривиальной, т.к. пришлось повозиться с подстановкой и сопоставлением рейсов. Занимательным оказалось то, что цены у “Onetwotrip”, “Aviasales” и “Skyscanner” на одни и те же рейсы немного отличаются (разброс около 5-7%).

Проект показался мне очень интересным, и я выложил пост об этом в соц.сетях. К моему удивлению дискуссия под постом оказалась довольно агрессивной, и я не сразу понял почему. Затем мне написал гендиректор одной из компаний лидера рынка продажи билетов в России, и ситуация прояснилась. Выяснилось, что запросы о ценах на билеты для таких компаний платные, т.к. они берут информацию с международных платных сервисов. И, помимо паразитной нагрузки, парсинг представляет для них еще и финансовую.

В любом случае, никто же с вас не требует оплаты, если вы подыскиваете себе лично билеты на этих сервисах, а запросов обычные люди тоже делают немало пока перебирают разные варианты… В общем тут такая бизнес-дилемма 🙂

8. “Рецепты шеф-парсера”. или как мы работаем?

Думаю, для большего понимания всех аспектов парсинга стоит приоткрыть завесу нашей “внутренней кухни”.

Всё начинается с заказа. Иногда клиенты связываются с нами сами, а иногда звоним мы. Особенно удачно получается с заказами на мониторинг цен. В этом случае нам приходится парсить не только конкурентов, но и самого заказчика. Поэтому мы порой звоним тем, кого так или иначе парсим, и в открытую об этом говорим, предлагая свои услуги – работа ведь нами уже и так выполняется. Сначала реакция очень негативная, но проходит пара дней, эмоции спадают, и заказчики сами перезванивают, говоря: “Чёрт с ним! Кого вы ещё парсите?”

Парсинг у ОЧЕНЬ многих владельцев посещаемых ресурсов вызывает эмоции. Сначала негативные, ведь он схож с подглядыванием в замочную скважину. Затем перерастает в интерес, а потом и в осознание необходимости. Бизнесмены – умные люди. Когда эмоции сходят на нет и остаётся холодный расчёт, всегда возникает вопрос: “А, может, мы где-то недоработали, и нам тоже это нужно?”

Благодаря этим эмоциям мы довольно активно растём и развиваемся. На данный момент мы парсим порядка 300 сайтов в день. Обычно у нас заказывают по 8-15 сайтов, а парсинг одного стоит от 5 до 9 тысяч рублей в месяц, в зависимости от сложности подключения, ведь каждый сайт приходится подключать индивидуально (уходит где-то 4-5 часов на ресурс). Сложность заключается в том, что некоторые защищаются. Борьба идёт не столько с парсингом, сколько с некой паразитной нагрузкой, которая не приносит им прибыль, но иногда приходится повозиться.

В любом случае ВСЁ ПАРСИТСЯ, даже если цена на товар публикуется на сайте как картинка 🙂 Желающим попробовать свои силы в парсинге, рекомендую потренироваться на сайте «Аптеки Столички» и спарсить цены.

Для чего нужен парсинг сайтов. Смотреть фото Для чего нужен парсинг сайтов. Смотреть картинку Для чего нужен парсинг сайтов. Картинка про Для чего нужен парсинг сайтов. Фото Для чего нужен парсинг сайтов

Интернет- магазин сети аптек «Столички» — цены пишутся внутренним шрифтом и чтобы их спарсить одним из решений будет формирование картинки и ее распознавание. Мы так делаем по крайне мере.

Собранные данные передаются клиенту. Обычно мы размещаем их на собственном облаке, постоянно обновляя, и предоставляем клиенту доступ к ним по API. Если с данными вдруг становится что-то не так (а это бывает редко – раз в 3-4 месяца), нам сразу звонят-пишут, и мы стараемся устранить проблему как можно быстрее. Такие сбои возникают при установки новой защиты или блокировки, а решаются с помощью исследований и прокси соответственно. В другом случае, когда на сайте что-то меняется, бот просто перестает понимать, где что находится, и нашему программисту приходится заново его настраивать. Но всё решаемо, и заказчики обычно относятся к таким проблемам с пониманием.

Отмечу, что в нашем деле личность заказчика никогда не разглашается – мы относимся к этому достаточно трепетно, да и пункты в договоре о неразглашении никто не отменял. Хоть в парсинге и нет ничего предосудительного, но многие стесняются.

Собственно, подводя итог- если вы растущий бизнес, торгуете широко распространенными товарами или работаете в быстро меняющейся среде (такой, как найм персонала или предложение специфических услуг для определенной категории авторов объявлений, резюме и содержимого других“досок объявлений” в Интернете), то рано или поздно столкнетесь с парсингом (как заказчик или как мишень).

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *