8 инструментов для парсинга сайтов

Расширения для браузеров, облачные сервисы и библиотеки.

Google выдает пользователю релевантные ссылки благодаря мониторингу сети и парсингу сайтов. Программы парсинга используют не только для поиска близких к запросу ссылок, но и для сбора данных.

Рассказываем, как просканировать интернет и какое ПО вам понадобится.

Как устроен парсинг сайтов

Это автоматический сбор и систематизация информации с помощью ПО. Парсеры применяют, работая с большими объемами информации, которые сложно отсортировать вручную.

Парсингом сайтов часто занимаются роботы поисковиков. Инструмент также используют для анализа ценовой политики на сайтах-конкурентах и наполнения своих онлайн-ресурсов. Например, парсят сайты спортивной аналитики, чтобы обновлять информацию о ходе матчей, или мониторят комментарии в социальных сетях. Кроме того, платформы, которые отслеживают информацию о компаниях, применяют парсеры, чтобы автоматически добавлять новые сведения из госреестров.

Возможен и самопарсинг — поиск багов на своем сайте (продублированных или несуществующих страниц, а также неполных описаний продуктов).

Как противодействуют парсингу

Парсить и потом использовать можно только те данные, которые не защищены авторским правом или содержатся в открытых источниках. Иногда владельцы сайтов устанавливают защиту — за большую нагрузку на серверы нужно платить, а слишком интенсивный парсинг может вызвать DoS-атаку.

Способы защиты:

1. Временная задержка между запросами (ограничивает доступ к информации для программы-парсера).

2. Защита от роботов (установка капчи, подтверждение регистрации).

3. Ограничения прав доступа.

4. Блокировка IP-адресов.

5. Honeypot — ссылки на пустые файлы или эмуляторы сервера, которые используют для обнаружения взломщиков или парсеров.

Как обойти защиту

Основная проблема парсера в том, что сайт видит признаки нетипичного поведения и блокирует доступ. Пользователи не открывают тысячи страниц за минуты. Поэтому задача парсера — выдать себя за обычного пользователя. Один из этапов — применение эмуляторов пользовательских инструментов. Они отправляют серверу HTTP-запросы с заголовком User Agent, то есть таким же, как у обычного пользователя.

Другой способ защиты — встроенный фрагмент JavaScript. Запуск фрагмента с браузера произойдет успешно, но при парсинге код HTML-страницы будет нечитаемым. Платформа node.js, которая позволяет запускать JS вне браузера, решает проблему.

Еще один вариант — использовать «безголовый» браузер. Это программа, которая копирует функции обычного браузера, но не имеет графического интерфейса. Она использует программное управление и может работать в фоновом режиме.

При большом количестве запросов с одного IP-адреса сайт может потребовать верификацию с помощью капчи. Некоторые из них можно расшифровать оптическим распознаванием символов, но лучше менять IP. Для этого используют прокси-серверы, которые запрашивают информацию с разных адресов.

XPath — язык запросов для доступа к частям документа XML, который используют для поиска элементов с определенным атрибутом. C его помощью реализуют навигацию в DOM (Document Object Model) — программном интерфейсе, который содержит информацию о структуре сайта, HTML и XML-документах.

Программы для парсинга

Расширения для браузера

Веб-приложения используют для простых задач. Такие расширения есть в каждом браузере. Они удобны для анализа маленького объема данных (до нескольких страниц).

Data Scraper

Этот инструмент используют для извлечения данных из таблиц или информации со страницы в форматах XLS, CSV и TSV. Платный доступ добавляет новые функции. Например, API и анонимные IP.

Стоимость: бесплатно при просмотре до 500 страниц.

Scraper.AI

Расширение предназначено для импорта данных с сайтов. Есть возможность кликнуть на элемент страницы и выбрать все элементы такого типа на сайте.

В Scraper.AI доступна функция регулярного мониторинга изменений на веб-странице. Собранная информация экспортируется в форматы JSON, CSV и XLSX.

Стоимость: бесплатно первые 3 месяца, пакеты — от $49 до $249 в месяц.

Облачные сервисы

По сравнению с расширениями, у этих программ больше функций. Работа проходит в «облаке» через веб-интерфейс или API, а на компьютере сохраняются только результаты.

Scraper API

Этот сервис применяют для парсинга сайтов с высокой степенью защиты. Его использование требует навыков программирования.

Программа самостоятельно повторяет неуспешные запросы и обрабатывает капчу. А также приложение может визуализировать элементы, которые требуют рендеринга Javascript. Scraper API работает с Python, Ruby и PHP.

Стоимость: 1 тыс. бесплатных запросов API, пакеты от $29 до $249 в месяц.
Diffbot

Он использует ML-алгоритмы и computer vision при парсинге, а также работает с API и может автоматически определить тип URL-адресов. Diffbot регулярно парсит сеть и сохраняет результаты. Компания строит самый большой граф знаний — она соединяет факты о созданных продуктах, новостных событиях, результатах отчетов. Узнать больше о Diffbot можно здесь.

Стоимость: бесплатно первые 14 дней, пакеты Start и Plus — $299 и $899 в месяц.

Десктопные программы

Большинство десктоп-парсеров работают с Windows, но на macOS их можно запустить с виртуальных машин. Есть и кроссплатформенные решения.

Десктопные парсеры могут быть эффективнее облачных. Минус в том, что они используют операционную мощность компьютера.

ParseHub

Программа позволяет интегрировать и визуализировать собранные данные с помощью BI-системы Tableau. Поддерживает графический интерфейс обработки данных point-and-click. У ParseHub есть функция запланированного сбора датасета в установленный интервал времени. Сервис работает с Windows, Mac и Linux. Доступен в облачной и десктопной версии.

Стоимость: бесплатно при обработке до 200 страниц, пакеты Standard и Professional — $149 и $499 в месяц.

Библиотеки для создания собственного парсера

Jaunt

Библиотека на Java, которую используют для парсинга и автоматизации запросов в формате JSON. Это формат обмена данных в веб-приложениях, например, для отправки информации с сервера клиенту и отображения на сайте. Jaunt работает как браузер без графического интерфейса, что ускоряет его. В Jaunt обрабатывают выборочные HTTP-запросы и ответы, а еще есть доступ в DOM.

Стоимость: бесплатно.
Scrapy

Библиотека для Python с открытым кодом. Фреймворк используют для парсинга. Особенность Scrapy — обработка запросов в асинхронном порядке: можно задавать команду, не дожидаясь завершения предыдущей. Также следующие запросы будут выполняться, даже если в обработке одного из них возникла ошибка.

В библиотеке можно установить паузу между запросами, а также регулировать число запросов с одного IP или домена.

Стоимость: бесплатно.
Beautiful Soup

Тоже библиотека на языке Python, но более простая. Обычно фреймворк используют для данных из HTML- и XML-документов. Чтобы открывать ссылки и сохранять собранные результаты, к Beautiful Soup необходимо подключить дополнительные библиотеки.

Стоимость: бесплатно.

Автор: Александр Тартачный