Для чего нужен парсер

30+ парсеров для сбора данных с любого сайта

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Десктопные/облачные, платные/бесплатные, для SEO, для совместных покупок, для наполнения сайтов, для сбора цен… В обилии парсеров можно утонуть.

Мы разложили все по полочкам и собрали самые толковые инструменты парсинга — чтобы вы могли быстро и просто собрать открытую информацию с любого сайта.

Зачем нужны парсеры

Парсер — это программа, сервис или скрипт, который собирает данные с указанных веб-ресурсов, анализирует их и выдает в нужном формате.

С помощью парсеров можно делать много полезных задач:

Для справки. Есть еще серый парсинг. Сюда относится скачивание контента конкурентов или сайтов целиком. Или сбор контактных данных с агрегаторов и сервисов по типу Яндекс.Карт или 2Гис (для спам-рассылок и звонков). Но мы будем говорить только о белом парсинге, из-за которого у вас не будет проблем.

Где взять парсер под свои задачи

Есть несколько вариантов:

Первый вариант подойдет далеко не всем, а последний вариант может оказаться слишком дорогим.

Что касается готовых решений, их достаточно много, и если вы раньше не сталкивались с парсингом, может быть сложно выбрать. Чтобы упростить выбор, мы сделали подборку самых популярных и удобных парсеров.

Законно ли парсить данные?

В законодательстве РФ нет запрета на сбор открытой информации в интернете. Право свободно искать и распространять информацию любым законным способом закреплено в четвертом пункте 29 статьи Конституции.

Допустим, вам нужно спарсить цены с сайта конкурента. Эта информация есть в открытом доступе, вы можете сами зайти на сайт, посмотреть и вручную записать цену каждого товара. А с помощью парсинга вы делаете фактически то же самое, только автоматизированно.

Но если вы хотите собрать персональные данные пользователей и использовать их для email-рассылок или таргетированной рекламы, это уже будет незаконно (эти данные защищены законом о персональных данных).

Десктопные и облачные парсеры

Облачные парсеры

Основное преимущество облачных парсеров — не нужно ничего скачивать и устанавливать на компьютер. Вся работа производится «в облаке», а вы только скачиваете результаты работы алгоритмов. У таких парсеров может быть веб-интерфейс и/или API (полезно, если вы хотите автоматизировать парсинг данных и делать его регулярно).

Например, вот англоязычные облачные парсеры:

Из русскоязычных облачных парсеров можно привести такие:

Любой из сервисов, приведенных выше, можно протестировать в бесплатной версии. Правда, этого достаточно только для того, чтобы оценить базовые возможности и познакомиться с функционалом. В бесплатной версии есть ограничения: либо по объему парсинга данных, либо по времени пользования сервисом.

Десктопные парсеры

Большинство десктопных парсеров разработаны под Windows — на macOS их необходимо запускать с виртуальных машин. Также некоторые парсеры имеют портативные версии — можно запускать с флешки или внешнего накопителя.

Популярные десктопные парсеры:

Виды парсеров по технологии

Браузерные расширения

Для парсинга данных есть много браузерных расширений, которые собирают нужные данные из исходного кода страниц и позволяют сохранять в удобном формате (например, в XML или XLSX).

Парсеры-расширения — хороший вариант, если вам нужно собирать небольшие объемы данных (с одной или парочки страниц). Вот популярные парсеры для Google Chrome:

Надстройки для Excel

Программное обеспечение в виде надстройки для Microsoft Excel. Например, ParserOK. В подобных парсерах используются макросы — результаты парсинга сразу выгружаются в XLS или CSV.

Google Таблицы

С помощью двух несложных формул и Google Таблицы можно собирать любые данные с сайтов бесплатно.

IMPORTXML

Функция использует язык запросов XPath и позволяет парсить данные с XML-фидов, HTML-страниц и других источников.

Вот так выглядит функция:

Функция принимает два значения:

Хорошая новость в том, что вам не обязательно изучать синтаксис XPath-запросов. Чтобы получить XPath-запрос для элемента с данными, нужно открыть инструменты разработчика в браузере, кликнуть правой кнопкой мыши по нужному элементу и выбрать: Копировать → Копировать XPath.

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

С помощью IMPORTXML можно собирать практически любые данные с html-страниц: заголовки, описания, мета-теги, цены и т.д.

IMPORTHTML

У этой функции меньше возможностей — с ее помощью можно собрать данные из таблиц или списков на странице. Вот пример функции IMPORTHTML:

Она принимает три значения:

Об использовании 16 функций Google Таблиц для целей SEO читайте в нашей статье. Здесь все очень подробно расписано, с примерами по каждой функции.

Виды парсеров по сферам применения

Для организаторов СП (совместных покупок)

Есть специализированные парсеры для организаторов совместных покупок (СП). Их устанавливают на свои сайты производители товаров (например, одежды). И любой желающий может прямо на сайте воспользоваться парсером и выгрузить весь ассортимент.

Чем удобны эти парсеры:

Популярные парсеры для СП:

Парсеры цен конкурентов

Инструменты для интернет-магазинов, которые хотят регулярно отслеживать цены конкурентов на аналогичные товары. С помощью таких парсеров вы можете указать ссылки на ресурсы конкурентов, сопоставлять их цены с вашими и корректировать при необходимости.

Вот три таких инструмента:

Парсеры для быстрого наполнения сайтов

Такие сервисы собирают названия товаров, описания, цены, изображения и другие данные с сайтов-доноров. Затем выгружают их в файл или сразу загружают на ваш сайт. Это существенно ускоряет работу по наполнению сайта и экономят массу времени, которое вы потратили бы на ручное наполнение.

В подобных парсерах можно автоматически добавлять свою наценку (например, если вы парсите данные с сайта поставщика с оптовыми ценами). Также можно настраивать автоматический сбор или обновление данных по расписания.

Примеры таких парсеров:

Парсеры для SEO-специалистов

Отдельная категория парсеров — узко- или многофункциональные программы, созданные специально под решение задач SEO-специалистов. Такие парсеры предназначены для упрощения комплексного анализа оптимизации сайта. С их помощью можно:

Пройдемся по нескольким популярным парсерам и рассмотрим их основные возможности и функционал.

Парсер метатегов и заголовков PromoPult

Стоимость: первые 500 запросов — бесплатно. Стоимость последующих запросов зависит от количества: до 1000 — 0,04 руб./запрос; от 10000 — 0,01 руб.

Возможности

С помощью парсера метатегов и заголовков можно собирать заголовки h1-h6, а также содержимое тегов title, description и keywords со своего или чужих сайтов.

Инструмент пригодится при оптимизации своего сайта. С его помощью можно обнаружить:

Также парсер полезен при анализе SEO конкурентов. Вы можете проанализировать, под какие ключевые слова конкуренты оптимизируют страницы своих сайтов, что прописывают в title и description, как формируют заголовки.

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Сервис работает «в облаке». Для начала работы необходимо добавить список URL и указать, какие данные нужно спарсить. URL можно добавить вручную, загрузить XLSX-таблицу со списком адресов страниц, или вставить ссылку на карту сайта (sitemap.xml).

Парсер метатегов и заголовков — не единственный инструмент системы PromoPult для парсинга. В SEO-модуле системы можно бесплатно спарсить ключевые слова, по которым добавленный в систему сайт занимает ТОП-50 в Яндексе/Google.

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Здесь же на вкладке “Слова ваших конкурентов” вы можете выгрузить ключевые слова конкурентов (до 10 URL за один раз).

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Подробно о работе с парсингом ключей в SEO-модуле PromoPult читайте здесь.

Netpeak Spider

Стоимость: от 19$ в месяц, есть 14-дневный пробный период.

Парсер для комплексного анализа сайтов. С Netpeak Spider можно:

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Screaming Frog SEO Spider

Стоимость: лицензия на год — 149 фунтов, есть бесплатная версия.

Многофункциональный инструмент для SEO-специалистов, подходит для решения практически любых SEO-задач:

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

В бесплатной версии доступен ограниченный функционал, а также есть лимиты на количество URL для парсинга (можно парсить всего 500 url). В платной версии таких лимитов нет, а также доступно больше возможностей. Например, можно парсить содержимое любых элементов страниц (цены, описания и т.д.).

ComparseR

Стоимость: 2000 рублей за 1 лицензию. Есть демо-версия с ограничениями.

Еще один десктопный парсер. С его помощью можно:

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Анализ сайта от PR-CY

Стоимость: платный сервис, минимальный тариф — 990 рублей в месяц. Есть 7-дневная пробная версия с полным доступом к функционалу.

Онлайн-сервис для SEO-анализа сайтов. Сервис анализирует сайт по подробному списку параметров (70+ пунктов) и формирует отчет, в котором указаны:

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Анализ сайта от SE Ranking

Стоимость: платный облачный сервис. Доступно две модели оплаты: ежемесячная подписка или оплата за проверку.

Стоимость минимального тарифа — 7$ в месяц (при оплате годовой подписки).

Возможности:

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Xenu’s Link Sleuth

Стоимость: бесплатно.

Десктопный парсер для Windows. Используется для парсинга все url, которые есть на сайте:

Часто применяется для поиска неработающих ссылок на сайте.

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

A-Parser

Стоимость: платная программа с пожизненной лицензией. Минимальный тарифный план — 119$, максимальный — 279$. Есть демо-версия.

Многофункциональный SEO-комбайн, объединяющий 70+ разных парсеров, заточенных под различные задачи:

Кроме набора готовых инструментов, можно создать собственный парсер с помощью регулярных выражений, языка запросов XPath или Javascript. Есть доступ по API.

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Чек-лист по выбору парсера

Краткий чек-лист, который поможет выбрать наиболее подходящий инструмент или сервис.

Для крупных проектов, где требуется парсить большие объемы данных и производить сложную обработку, более выгодной может оказаться разработка собственного парсера под конкретные задачи.

Для большинства же проектов достаточно будет стандартных решений (возможно, вам может быть достаточно бесплатной версии любого из парсеров или пробного периода).

Источник

10 способов применения парсинга сайтов

Представляя компанию по парсингу сайтов, я хочу рассказать вам о разных способах использования парсинга. В этой статье вы узнаете, где и с какой целью используется парсинг сайтов, а также как парсинг помогает решить различные проблемы и оптимизировать бизнес.

Все примеры основаны на личном опыте в работе с парсингом.
Давайте начнем.

В двух словах, с помощью парсинга можно получать информацию из других источников в автоматическом режиме.

Современный интернет имеет избыток информации, которую невозможно обработать вручную. Поэтому, основное назначение парсинга в том, чтобы автоматизировать все процессы получения, структурирования и обработки данных в нужный формат. Этот процесс, в свою очередь, позволяет повышать конверсию и получать больше звонков, заказов, продаж и т.д.

В действительности, способов применения парсинга очень много. Здесь рассказывается только о самых действенных и популярных из них.

Парсинг часто используется для работы с товарами интернет-магазина. Товары собираются в Excel-базу и успешно импортируются в интернет-магазин. При импорте будут загружены изображения, удалены старые товары и обновлены существующие. Так, каталог сайта всегда будет актуальным.

Даже в небольших интернет-магазинах, парсинг значительно облегчает ручную работу менеджера. Это особенно чувствуется, когда товаров несколько тысяч.

Нередко парсинг применяется для скачивания товаров с зарубежных ресурсов. В процессе парсинга дополнительно подключается автоматизированный переводчик, который формирует практически уникальные тексты. С русскоязычных сайтов так же можно парсить товары, применяя специальный синонимайзер для повышения уникальности текстов.

Успешность бизнеса зависит от многих факторов, в том числе и от ценовой политики компании. Клиенты могут отдавать приоритет тем компаниям, которые предоставляют товары или услуги дешевле, чем у вас. Поэтому нужно постоянно мониторить конкурентов и знать, по каким ценам предоставляются услуги на рынке.

Сейчас услуги по мониторингу цен конкурентов предоставляются повсеместно. Принцип таких сервисов достаточно простой. Данные о ваших товарах сохраняются в Excel-файл. Парсинг добавляет в этот же файлик информацию о ценах из других интернет-магазинов. В итоге у вас есть сравнительная таблица, ориентируясь на которую, вы можете своевременно принимать решения.

Выполнять такую работу вручную, мягко сказать, неразумно. Эта деятельность занимает слишком много времени, неэффективна и нерентабельна.

Парсинг может без труда создавать базы компаний по вашему городу, региону и даже по всей России. В таких базах содержится открытая информация с официальных веб-сайтов, например: email-адрес, номер телефона, ИНН/ОГРН, название компании, географический адрес, URL-адрес и т.д.

На сайтах можно скачать уже готовые базы, заранее созданные и подготовленные для работы. Например, в «Парсик» есть базы таких компаний, как: поставщики, оптовые компании, производители, строительные организации и т.д.

Такие базы успешно используются для email-рассылок с коммерческим предложением. Разумеется, эта деятельность не очень приятна многим владельцам почтовых ящиков, однако, многие email-адреса являются корпоративными и такая рассылка при ненавязчивом подходе — вполне действенный инструмент привлечения клиентов.

Вот один из примеров, когда к нам обратился клиент.

Человек занимается продажей, монтажом и обслуживанием камер видеонаблюдения. В число его клиентов входят компании, которые арендуют или просто пользуются складскими помещениями, в которых идет работа с загрузкой, выгрузкой товаров, контролем работы кладовщиков и т.д.

Для рассылки можно использовать подходящие по тематике базы, такие как базы логистических компаний, складов, коммерческих помещений, офисов, производственных площадей и т.д. Мы собрали для клиента 4520 компаний по Москве и Московской области.

Базы могут иметь расширенные данные о владельце компании и учредителях, финансовых данных, долгах, уставном капитале, посещаемости сайта, технических данных сайта и т.д. Эту информацию можно использовать в совершенно разных направлениях бизнеса.

Существует еще один эффективный способ привлечения потенциальных клиентов, как демпинг.

Демпинг — искусственное снижение цен на товары и услуги с целью проникновения, укрепления и вытеснения конкурентов на рынке.

Такие товары значительно дешевле товаров конкурентов, поэтому пользуются большим спросом. Демпинговые товары продаются массово, тем самым увеличивая рейтинг магазину, число продаж, отзывов, популярность и т.д. После этого магазин восстанавливает цены на товары, а заработанный рейтинг уже работает на магазин.

Затраты на парсинг и убытки с продаж товаров по демпинговым ценам окупаются за счет того, что в будущем популярный магазин сможет иметь большее число клиентов, продаж и прибыли соответственно.

В парсинге особенно нуждаются сайты с «горячим» и часто-обновляемым контентом. Как правило, это городские и новостные порталы, киносайты, сайты-агрегаторы компаний, площадки с результатами спортивных соревнований, сайты для бронирования гостиниц и покупки билетов и т.д.

Информация для таких сайтов собирается из разных источников. Курсы валют и прогноз погоды можно без проблем получить через публичный API. Однако, API не предусмотрен для большинства неоднородных данных, поэтому парсинг является наиболее подходящим способом их получения.

На сайтах-агрегаторах сконцентрировано, упорядочено и удобно представлено действительно много информации, поэтому такие сайты имеют большую посещаемость. С помощью парсинга, страницы таких сайтов создаются в автоматическом режиме.

Одним из секретов успеха многих лидеров рынка, является парсинг с целью анализа информации.

Расскажу на реальном примере.

Клиент продает свои товары на Wildberries. Ему необходимо регулярно получать отчет с аналитическими данными по каждому товару. Отчет должен содержать ежедневные данные о количестве продаж, проценте выкупа, рентабельности, позициях каждого товара в определенных категориях и поисковой выдачи по ключевым словам, текущем рейтинге, отзывам и еще по более 20 параметрам.

Ежедневный отчет позволяет сравнивать разные показатели и понять, например, почему вчера товар занимал более высокие позиции, чем сегодня. Причиной могли быть негативные отзывы покупателей, больший процент возврата товара или просто, конкурент выставил такой же товар с более качественным описанием и фотографиями.

Используя эту информацию, клиент понимает, что нужно делать, продумывает стратегию продаж, пересчитывает рекламный бюджет и т.д.

Существуют такие категории сайтов, запуск которых невозможен без наличия больших объемов контента еще на начальных этапах. Без этого сайт абсолютно бесполезен для пользователей. К таким сайтам относятся доски объявлений, каталоги компаний, форумы, новостные порталы, информационные сайты и т.д. Но где взять сразу много контента, когда сайт еще не имеет аудитории? Решением будет использование парсинга, который автоматически соберет нужные вам данные из разных источников.

Задайте себе вопрос, стали бы вы размещать объявление на новом сайте, который имеет от силы 1000 объявлений по всей стране? Другое дело обстоит с досками объявлений, которые насчитывают сотни тысяч предложений по разным городам, регионам, просмотрами.

Чтобы заполнить такую площадку объявлений и сделать видимость активности на ней, досточно просто сделать парсинг авито, импортировать эти данные на сайт, запустить сайт в работу, а затем, постепенно вытеснять загруженные объявления своими.

Название говорит само за себя — это парсинг своего сайта. Но зачем вообще парсить собственный сайт? Хороший и логичный вопрос. На это есть множество причин.

Самопарсинг применяется для поиска технических проблем сайта и недочетов в SEO. Например:

Цель самопарсинга аналогична UNIT-тестам программного кода. Запускаешь проверку и через пол часа получаешь информативный отчет по каждой странице сайта. Такой способ позволяет поддерживать чистоту и порядок на сайте и является хорошим инструментом для веб-матеров. Дополнительно, самопарсинг можно применять для составления технического задания фрилансерам.

Парсинг является хорошим помощником для SEO-специалистов, веб-студий и онлайн-сервисов по продвижению сайтов.

Для продвижения в интернете можно и нужно пользоваться рекомендациями для веб-мастеров от Яндекс и Google. Только этих рекомендаций недостаточно для эффективного продвижения, потому, что советы описаны, мягко сказать, в общих чертах. А чтобы на самом деле узнать как работает поисковая выдача и какие показатели наиболее важны для ранжирования, используется парсинг.

Например, можно запустить парсер, собрать статистическую информацию сотен тысяч сайтов и проанализировать ее. Пример таких данных: длина текстов, заголовков, описаний, водность текста и частота ключевых слов, наличие изображений, ссылочная масса и т.д.

После парсинга и анализа выявляются закономерности, например:

Далее, следует стремиться к созданию страниц своего сайта с учетом этих соображений.

Многие популярнейшие блоги экспертов успешно проводили такие эксперименты и использовали их в своих целях.

Сегодня в социальных сетях многие предприниматели строят целый бизнес. Ведь в них сосредоточена огромная аудитория разных интересов, взглядов, потребностей. Даже обычный поиск внутри площадки позволяет довольно просто получить нужных вам потенциальных клиентов.

Но, для того, чтобы выжать из социальных сетей максимум, нужно выйти за пределы интерфейса социальной сети. Парсинг позволяет получить гораздо более подходящую и склонную к покупке аудиторию.

Например, можно найти:

Базы, полученные с помощью парсинга, можно применять для совершенно разных целей. Например, для массового приглашения в группы, рассылок, фолловинга, лайкинга, таргетированной рекламы и т.д.

Парсинг можно использовать практически для любого проекта и на любой стадии развития. Причем, затраты на разработку парсера оправданы в сравнении с временными затратами на ручную работу.

Возможно, после прочтения, у вас появится идея, как применить парсинг в вашем проекте и упростить многие задачи.

Пишите в комментариях, пользуетесь ли вы парсингом и делитесь мнением.

Источник

Что такое парсинг сайта, программы и примеры их использования

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

В интернет маркетинге часто необходимо собрать большой объем информации с сайта, не только со своего, но и с сайтов конкурентов, после её проанализировать и применить для каких-либо целей.

В статье постараемся достаточно просто рассказать о термине «парсинг”, его основных нюансах и рассмотрим несколько примеров его полезного применения, как для маркетологов и владельцев бизнеса, так и для SEO специалистов.

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Что такое парсинг сайта?

Простыми словами парсинг – это автоматизированный сбор информации с любого сайта, ее анализ, преобразование и выдача в структурированном виде, чаще всего в виде таблицы с набором данных.

Парсер сайта — это любая программа или сервис, которая осуществляет автоматический сбор информации с заданного ресурса.

В статье мы разберем самые популярные программы и сервисы для парсинга сайта.

Зачем парсинг нужен и когда его используют?

Вообще парсинг можно разделить на 2 типа:

На основе полученных данных специалист составляет технические задания для устранения выявленных проблем.

Выше перечислены основные примеры использования парсинга. На самом деле их куда больше и ограничивается только вашей фантазией и некоторыми техническими особенностями.

Как работает парсинг? Алгоритм работы парсера.

Процесс парсинга — это автоматическое извлечение большого массива данных с веб-ресурсов, которое выполняется с помощью специальных скриптов.

Если кратко, то парсер ходит по ссылкам указанного сайта и сканирует код каждой страницы, собирая информацию о ней в Excel-файл либо куда-то еще. Совокупность информации со всех страниц сайта и будет итогом парсинга сайта.

Парсинг работает на основе XPath-запросов, это язык, который обращается к определенному участку кода страницы и извлекает из него заданную критерием информацию.

Алгоритм стандартного парсинга сайта.

Чем парсинг лучше работы человека?

Парсинг сайта – это рутинная и трудоемкая работа. Если вручную извлекать информацию из сайта, в котором всего 10 страниц, не такая сложная задача, то анализ сайта, у которого 50 страниц и больше, уже не покажется такой легкой.

Кроме того нельзя исключать человеческий фактор. Человек может что-то не заметить или не придать значения. В случае с парсером это исключено, главное его правильно настроить.

Если кратко, то парсер позволяет быстро, качественно и структурировано получить необходимую информацию.

Какую информацию можно получить, используя парсер?

У разных парсеров могут быть свои ограничения на парсинг, но по своей сути вы можете спарсить и получить абсолютно любую информацию, которая есть в коде страниц сайта.

Законно ли парсить чужие сайты?

Парсинг данных с сайтов-конкурентов или с агрегаторов не противоречат закону, если:

Если вы сомневаетесь по одному из перечисленных пунктов, перед проведением анализа сайта лучше проконсультироваться с юристом.
Популярные программы для парсинга сайта

Мы выделяем 4 основных инструменты для парсинга сайтов:

Google таблицы (Google Spreadsheet)

Удобный способ для парсинга, если нет необходимости парсить большое количество данных, так как есть лимиты на количество xml запросов в день.

С помощью таблиц Google Spreadsheet можно парсить метаданные, заголовки, наименования товаров, цены, почту и многое другое.

Рассмотрим основные функции

Функция importHTML

Настраивает импорт таблиц и списков на страницах сайта. Прописывается следующим образом:

=IMPORTHTML(“ссылка на страницу”; запрос “table” или “list”; порядковый номер таблицы/списка)

Пример использования

Необходимо выгрузить данные из таблицы со страницы сайта.

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Для этого в формулу помещаем URL страницы, добавляем тег «table» и порядковый номер — 1.

Вот что получается:

Вставляем формулу в таблицу и смотрим результат:

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Для выгрузки второй таблицы в формуле заменяем 1 на 2.

Вставляем формулу в таблицу и смотрим результат:

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Функция importXML

Импортирует данные из документов в форматах HTML, XML, CSV, CSV, TSV, RSS, ATOM XML.

Функция имеет более широкий спектр опций, чем предыдущая. С её помощью со страниц и документов можно собирать информацию практически любого вида.

Работа с этой функцией предусматривает использование языка запросов XPath.

Формула:

=IMPORTXML(“ссылка”; “//XPath запрос”)

Пример использования

Вытягиваем title, description и заголовок h1.

В первом случае в формуле просто прописываем //title:

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

В формулу можно также добавлять названия ячеек, в которых содержатся нужные данные.

Для заголовка h1 похожая формула

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

С парсингом description немного другая история, а именно прописать его XPath запросом. Он будет выглядеть так:

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

В случае с другими любыми данными XPath можно скопировать прямо из кода страницы. Делается это просто:

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Вот как это будет выглядеть после всех манипуляций

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Функция REGEXEXTRACT

С её помощью можно извлекать любую часть текста, которая соответствует регулярному выражению.

Конечно для использования данной функции необходимы знания построения регулярных выражений,

Пример использования

Нужно отделить домены от страниц. Это можно сделать с помощью выражения:

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Подробнее о функциях таблиц можно почитать в справке Google.

NetPeak Spider

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Десктопный инструмент для регулярного SEO-аудита, быстрого поиска ошибок, системного анализа и парсинга сайтов.

Бесплатный период 14 дней, есть варианты платных лицензий на месяц и более.

Данная программа подойдет как новичкам, так и опытным SEO-специалистам. У неё интуитивно понятный интерфейс, она самостоятельно находит и кластеризует ошибки, найденные на сайте, помечает их разными цветами в зависимости от степени критичности.

Возможности Netpeak Spider:

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

ComparseR

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

ComparseR – специализированная программа, предназначенная для глубокого изучения индексации сайта.

У демо-версии ComparseR есть 2 ограничения:

Данный парсер примечателен тем, что он заточен на сравнение того, что есть на вашем сайте и тем, что индексируется в поисковых системах.

То есть вы легко найдете страницы, которые не индексируются поисковыми системами, или наоборот, страницы-сироты (страницы, на которые нет ссылок на сайте), о которых вы даже не подозревали.

Стоит отметить, что данный парсер полностью на русском и не так требователен к мощностям компьютера, как другие аналоги.

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Screaming Frog SEO Spider

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Особенности программы:

В бесплатной версии доступна обработка до 500 запросов.

На первый взгляд интерфейс данной программы для парсинга сайтов может показаться сложным и непонятным, особенно из-за отсутствия русского языка.

Не смотря на это, сама программа является великолепным инструментом с множеством возможностей.

Всю необходимую информацию можно узнать из подробного мануала по адресу https://www.screamingfrog.co.uk/seo-spider/user-guide/.

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Примеры глубокого парсинга сайта — парсинг с конкретной целью

Пример 1 — Поиск страниц по наличию/отсутствию определенного элемента в коде страниц

Задача: — Спарсить страницы, где не выводится столбец с ценой квартиры.

Как быстро найти такие страницы на сайте с помощью Screaming Frog SEO Spider?

Открываете страницу где есть блок, который вам нужен и с помощью просмотра кода ищите класс блока, который есть на всех искомых страницах.

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Чтобы было более понятна задача из примера, мы ищем страницы, блок которых выглядит вот так:

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Тут же ищите элемент, который отсутствует на искомых страницах, но присутствует на нормальных страницах.
В нашем случае это столбец цен, и мы просто ищем страницы, где отсутствует столбец с таким названием (предварительно проверив, нет ли где в коде закомменченного подобного столбца)

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Выгружаем Custom 1 и Custom 2.

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Далее в Excel ищем урлы которые совпадают между файлами Custom 1 и Custom 2. Для этого объединяем 2 файла в 1 таблицу Excel и с помощью «Повторяющихся значений» (предварительно нужно выделить проверяемый столбец).

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Фильтруем по красному цвету и получаем список урлов, где есть блок с выводом квартир, но нет столбца с ценами)!

Таким способом на сайте можно быстро найти и выгрузить выборку необходимых страниц для различных задач.

Пример 2 — Парсим содержимое заданного элемента на странице с помощью CSSPath

Давайте разбираться, как такое сделать

Открываете страницу где есть блок, который вам нужен и с помощью просмотра кода ищите класс блока, текст которого нам нужно выгружать.

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Выглядит это так

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Для того, чтобы не парсить весь сайт целиком, вы можете ограничить область поиска с помощью указания конкретного раздела, который нужно парсить.

Указываем сюда разделы, в которых содержатся все нужные страницы.

Выглядит это вот так для обоих случаев.

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Далее парсим сайт, вбив в строку свой урл. В нашем случае это https://www.ughotels.ru/kurorty/otdyh-v-sochi.

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Теперь в Excel чистим файл от пустых данных, так как не на всех страницах есть подобные блоки, поэтому данных нет.

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

После фильтрации мы рекомендуем для удобства сделать транспонирование таблички на второй вкладке, так ее станет удобнее читать.

Для этого выделяем табличку, копируем и на новой вкладке нажимаем

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Получаем итоговый файл: Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Пример 3 — Извлекаем содержимое нужных нам элементов сайта с помощью запросов XPath

Задача: Допустим, мы хотим спарсить нестандартные, необходимые только нам данные и получить на выходе таблицу с нужными нам столбцами — URL, Title, Description, h1, h2 и текст из конца страниц листингов товаров (например, https://www.funarena.ru/catalog/maty/). Таким образом, решаем сразу 2 задачи:

Сначала немного теории, знание которой позволит решить эту и многие другие задачи.

Технический парсинг сайта и сбор определенных данных со страницы с помощью запросов XPath

Как уже говорилось выше, SEO-специалисты используют технический парсинг сайта в основном для поиска “классических” тех. ошибок. У парсеров даже есть специальные алгоритмы, которые сразу помечают и классифицируют ошибки по типам, облегчая работу SEO специалиста.

Но бывают ситуации, когда с сайта необходимо извлечь содержимое конкретного класса или тега. Для этого на помощь приходит язык запросов XPath. С помощью него можно извлечь с сайта только нужную информацию, записать ее в удобный вид и затем работать с ней.

Ниже приведем примеры некоторых вариантов запросов XPath, которые могут быть вам полезны.

Данные взяты из официальной справки. Там вы сможете увидеть больше примеров.

По умолчанию парсер Screaming Frog SEO Spider собирает только h1 и h2, но если вы хотите собрать h3, то XPath запрос будет выглядеть так:

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Если вы хотите спарсить только 1-й h3, то XPath запрос будет таким:

/descendant::h3[1]

Чтобы собрать первые 10 h3 на странице, XPath запрос будет:

/descendant::h3[position() >= 0 and position() Теперь вернемся к изначальной задаче

В предыдущем примере мы показали, как парсить с помощью CSSPath, принцип похож, но у него есть свои особенности.

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

При таком копировании мы получили /html/body/section/div[2]/ul[2]/li/div

Для элементарного понимания, таким образом в коде зашифрована вложенность того места, где расположен текст. И мы получается будем проверять на страницах, есть ли текст по этой вложенности.

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

На скрине мы оставили вариант парсинга того же текста, но уже с помощью CSSPath, чтобы показать, что практически все можно спарсить 2-мя способами, но у Xpath все же больше возможностей.

Получаем Excel с нужными нам данными.

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

После фильтрации удобно сделать транспонирование полученных данных.

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Пример 4 — Как спарсить цены и названия товаров с Интернет магазина конкурента

Задача: Спарсить товары и взять со страницы название товара и цену.

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Начнем с того, что ограничим область парсинга до каталога, так как ссылки на все товары ресурса лежат в папке /catalog/. Но нас интересуют именно карточки товаров, а они лежат в папке /product/ и поэтому их тоже нужно парсить, так как информацию мы будем собирать именно с них.

https://okumashop.ru/catalog/.* ← Это страницы на которых расположены ссылки на товары.

https://okumashop.ru/product/.* ← Это страницы товаров, с которых мы будем получать информацию.

Для реализации задуманного мы воспользуемся уже известными нам методами извлечения данных с помощью CSSPath и XPath запросов.

Заходим на любую страницу товара, нажимаем F12 и через кнопку исследования элемента смотрим какой класс у названия товара.

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Иногда этого знания достаточно, чтобы получить нужные данные, но всегда стоит проверить, есть ли еще на сайте элементы, размеченные как

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Цену можно получить, как с помощью CSSPath, так и с помощью Xpath.

Если хотим получить цену через XPath, то также через исследование элемента копируем путь XPath.

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Получаем вот такой код //*[@id=»catalog-page»]/div/div/div/div[1]/div[2]/div[2]/div[1]

Идем в Configuration → Custom → Extraction и записываем все что мы выявили. Важно выбирать Extract Text, чтобы получать именно текст искомого элемента, а не сам код.

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

После парсим сайт. То, что мы хотели получить находится в разделе Custom Extraction. Подробнее на скрине.

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Выгружаем полученные данные.

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Получаем файл, где есть все необходимое, что мы искали — URL, Название и цена товара

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Пример 5 — Поиск страниц-сирот на сайте (Orphan Pages)

Задача: — Поиск страниц, на которые нет ссылок на сайте, то есть им не передается внутренний вес.

Для решения задачи нам потребуется предварительно подключить к Screaming frog SEO spider Google Search Console. Для этого у вас должны быть подтверждены права на сайт через GSC.

Screaming frog SEO spider в итоге спарсит ваш сайт и сравнит найденные страницы с данными GSC. В отчете мы получим страницы, которые она не обнаружила на сайте, но нашла в Search Console.

Давайте разбираться, как такое сделать.

Подключаемся к Google Search Console. Просто нажимаете кнопку, откроется браузер, где нужно выбрать аккаунт и нажать кнопку “Разрешить”.

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

В окошках, указанных выше нужно найти свой сайт, который вы хотите спарсить. С GSC все просто там можно вбить домен. А вот с GA не всегда все просто, нужно знать название аккаунта клиента. Возможно потребуется вручную залезть в GA и посмотреть там, как он называется.

Выбрали, нажали ок. Все готово к чуду.

Теперь можно приступать к парсингу сайта.

Тут ничего нового. Если нужно спарсить конкретный поддомен, то в Include его добавляем и парсим как обычно.

Если по завершению парсинга у вас нет надписи “API 100%”

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Открываем получившийся отчет. Получили список страниц, которые известны Гуглу, но Screaming frog SEO spider не обнаружил ссылок на них на самом сайте.

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

Возможно тут будет много лишних страниц (которые отдают 301 или 404 код ответа), поэтому рекомендуем прогнать весь этот список еще раз, используя метод List.

Для чего нужен парсер. Смотреть фото Для чего нужен парсер. Смотреть картинку Для чего нужен парсер. Картинка про Для чего нужен парсер. Фото Для чего нужен парсер

После парсинга всех найденных страниц, выгружаем список страниц, которые отдают 200 код. Таким образом вы получаете реальный список страниц-сирот с которыми нужно работать.

На такие страницы нужно разместить ссылки на сайте, если в них есть необходимость, либо удаляем страницы или настраиваем 301 редирект на существующие похожие страницы.

Вывод

Парсеры помогают очень быстро решить множество задач не только технического характера (поиска ошибок), но и массу бизнес задач, таких как, собрать структуру сайта конкурента, спарсить цены и названия товаров и и другие полезные данные.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *