Datacol — универсальная программа для парсинга сайтов

16 декабря 2013 | Автор: | Категория: SEO Софт

Недавно мой арсенал seo программ пополнился ещё одним замечательным софтом.

Datacol – это универсальное средство, с помощью которого можно собирать данные с любых сайтов в сети Интернет.

Сразу после того, как программа скачана и установлена Вы получаете доступ к множеству готовых парсеров, которые умеют:

  • — парсить выдачу Google и Яндекс;
  • — парсить интернет магазины (ebay.com, focalprice.com, Яндекс.Маркет и др.);
  • — собирать контактные данные (2ГИС, Яндекс.Карты);
  • — парсить доски объявлений (avito.ru, irr.ru и др.);
  • — парсить контент с популярных сайтов (kinopoisk.ru, rutracker.org, youtube.com);
  • — собирать и снабжать в реальном времени работающую кампанию-парсер прокси серверами;
  • — парсить ВКонтакте;
  • — парсить форумы;
  • — и многое другое.

А универсальным данный софт называют за то, что по помимо готовых парсеров контента Вы за считанные минуты можете сделать свой индивидуальный парсер, который будет собирать данные с нужного Вам вебресурса.

Для примера я решил сделать небольшой парсер, который будет собирать отзывы о товарах на сайте fotomag.com.ua

Что было сделано:
Создал новую компанию — Fotomag.par, заморачиваться с парсингом всего сайта пока не стал, а просто указал список url с которых нужно собрать отзывы (Вкладка Навигация -> Стартовые URL).

Datacol: Стартовые URL

Во вкладке Сбор данных -> Поля данных создал 3и поля данных в которые будет записываться нужная информация (url страницы с отзывами о товаре, название товара и сами отзывы).
Первое поле: title_product;
Тип данных: обычное поле;
Строки вырезания:

<h1>(.*?)</h1>

С помощью данного регулярного выражения получаем данные стоящие между тегами h1, а именно — название товара.

В остальных вкладках ничего не менял.

Datacol: Поля данных_название товара

Второе поле: products_reviews;
Тип данных: статическое поле;
Строки вырезания:

<div class="text">(.*?)<a[^<>]*?class="[^<>]*?reply[^<>]*?>

С помощью данного регулярного выражения получаем данные стоящие между тегом div с классом text и тегом a с классом reply, а именно — отзыв о товаре.

Во вкладке Дополнительно установил галочку в Поле обязательное, чтоб в случае, если на странице не будет найдено отзывов, группа данных текущего диапазона не сохранялась.

Во вкладке Статические, по умолчанию оставил выбор всех значений, а в качестве строки объединения задал точку с запятой. Собственно особенность статического поля в том, что можно получить не только первое найденное значение (первый отзыв), а собрать все либо указать нужный диапазон данных.

Datacol: Поля данных_отзывы

Третье поле: url;
Тип данных: спец поле.
Во вкладке Спец значения, по умолчанию оставил выбранным URL.

Datacol: Поля данных_url

Во вкладке Экспорт -> Базовые выбрал произвольный формат экспорта и экспортировать в потоковом режиме.
Во вкладке Экспорт -> Форматы экспорта указал путь для сохранения собранных данных, записывать решил в текстовый файлик, а в качестве формата выбрал следующий:

"%url%"
"%title_product%"
Rewiews:
"%products_reviews%"

Datacol: Форматы экспорта

После запуска, в области показа новостей и результатов можно увидеть группы данных собранные в процессе работы парсера.

Datacol: Результат парсенга

Работать с программой очень просто, главное на начальном этапе уделить несколько часов и ознакомиться с имеющейся справкой, в которой подробно расписан весь имеющийся функционал. Кроме того, на YouTube полно обучающих роликов по созданию парсеров на базе Datacol. Думаю со временем, когда сам больше поднатаскаюсь в создании парсеров тоже запишу какое-нибудь обучающее видео.

С помощью Datacol можно не только парсить любые данные, в программе есть функция экспорта данных в WordPress c помощью которой можно легко наполнять армию Ваших блогов. Базовый функционал Datacol также позволяет наполнять интернет магазины на Webasyst, Opencart и Virtuemart.

Отдельно можно приобрести плагины для экспорта данных в другие популярные движки: DLE, Joomla, Blogspot, Livejournal и др. С полным перечнем доступных платных и бесплатных плагинов можно ознакомиться на странице — Плагины Datacol.

Довольно важным моментом является и то, что разработчики Datacol занимаются поддержкой своего проекта и регулярно выпускают обновления, в которых устраняют найденные баги и добавляют новый функционал.

На текущий момент цена одной лицензии составляет 59$ (вместо 89$), на офф. сайте программы написано, что стоимость была снижена на период новогодних праздников, так что не исключено, что со временем снова подорожает. Если за время прочтения данного поста у Вас тоже появились мысли о том, как можно использовать данный софт в своей работе, ещё есть возможность сделать себе новогодний подарок и приобрести Datacol по сниженной цене.

Метки: 

2 комментария к "Datacol — универсальная программа для парсинга сайтов"

  1. Оптимизатор | 25 декабря 2013 @ 18:29
  2. Интересная программка. Наверное стоит попробовать.

    Ответить

  3. Сосед | 19 марта 2014 @ 23:00
  4. Заебала школота, один спиздил статью, а все остальные у него пиздят…

    Ответить

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *