Недавно мой арсенал seo программ пополнился ещё одним замечательным софтом.
Datacol – это универсальное средство, с помощью которого можно собирать данные с любых сайтов в сети Интернет.
Сразу после того, как программа скачана и установлена Вы получаете доступ к множеству готовых парсеров, которые умеют:
- — парсить выдачу Google и Яндекс;
- — парсить интернет магазины (ebay.com, focalprice.com, Яндекс.Маркет и др.);
- — собирать контактные данные (2ГИС, Яндекс.Карты);
- — парсить доски объявлений (avito.ru, irr.ru и др.);
- — парсить контент с популярных сайтов (kinopoisk.ru, rutracker.org, youtube.com);
- — собирать и снабжать в реальном времени работающую кампанию-парсер прокси серверами;
- — парсить ВКонтакте;
- — парсить форумы;
- — и многое другое.
А универсальным данный софт называют за то, что по помимо готовых парсеров контента Вы за считанные минуты можете сделать свой индивидуальный парсер, который будет собирать данные с нужного Вам вебресурса.
Для примера я решил сделать небольшой парсер, который будет собирать отзывы о товарах на сайте fotomag.com.ua
Что было сделано:
Создал новую компанию — Fotomag.par, заморачиваться с парсингом всего сайта пока не стал, а просто указал список url с которых нужно собрать отзывы (Вкладка Навигация -> Стартовые URL).
Во вкладке Сбор данных -> Поля данных создал 3и поля данных в которые будет записываться нужная информация (url страницы с отзывами о товаре, название товара и сами отзывы).
Первое поле: title_product;
Тип данных: обычное поле;
Строки вырезания:
<h1>(.*?)</h1> |
С помощью данного регулярного выражения получаем данные стоящие между тегами h1, а именно — название товара.
В остальных вкладках ничего не менял.
Второе поле: products_reviews;
Тип данных: статическое поле;
Строки вырезания:
<div class="text">(.*?)<a[^<>]*?class="[^<>]*?reply[^<>]*?> </a[^<></div> |
С помощью данного регулярного выражения получаем данные стоящие между тегом div с классом text и тегом a с классом reply, а именно — отзыв о товаре.
Во вкладке Дополнительно установил галочку в Поле обязательное, чтоб в случае, если на странице не будет найдено отзывов, группа данных текущего диапазона не сохранялась.
Во вкладке Статические, по умолчанию оставил выбор всех значений, а в качестве строки объединения задал точку с запятой. Собственно особенность статического поля в том, что можно получить не только первое найденное значение (первый отзыв), а собрать все либо указать нужный диапазон данных.
Третье поле: url;
Тип данных: спец поле.
Во вкладке Спец значения, по умолчанию оставил выбранным URL.
Во вкладке Экспорт -> Базовые выбрал произвольный формат экспорта и экспортировать в потоковом режиме.
Во вкладке Экспорт -> Форматы экспорта указал путь для сохранения собранных данных, записывать решил в текстовый файлик, а в качестве формата выбрал следующий:
"%url%" "%title_product%" Rewiews: "%products_reviews%" |
После запуска, в области показа новостей и результатов можно увидеть группы данных собранные в процессе работы парсера.
Работать с программой очень просто, главное на начальном этапе уделить несколько часов и ознакомиться с имеющейся справкой, в которой подробно расписан весь имеющийся функционал. Кроме того, на YouTube полно обучающих роликов по созданию парсеров на базе Datacol. Думаю со временем, когда сам больше поднатаскаюсь в создании парсеров тоже запишу какое-нибудь обучающее видео.
С помощью Datacol можно не только парсить любые данные, в программе есть функция экспорта данных в WordPress c помощью которой можно легко наполнять армию Ваших блогов. Базовый функционал Datacol также позволяет наполнять интернет магазины на Webasyst, Opencart и Virtuemart.
Отдельно можно приобрести плагины для экспорта данных в другие популярные движки: DLE, Joomla, Blogspot, Livejournal и др. С полным перечнем доступных платных и бесплатных плагинов можно ознакомиться на странице — Плагины Datacol.
Довольно важным моментом является и то, что разработчики Datacol занимаются поддержкой своего проекта и регулярно выпускают обновления, в которых устраняют найденные баги и добавляют новый функционал.
На текущий момент цена одной лицензии составляет 59$ (вместо 89$), на офф. сайте программы написано, что стоимость была снижена на период новогодних праздников, так что не исключено, что со временем снова подорожает. Если за время прочтения данного поста у Вас тоже появились мысли о том, как можно использовать данный софт в своей работе, ещё есть возможность сделать себе новогодний подарок и приобрести Datacol по сниженной цене.
Интересная программка. Наверное стоит попробовать.
Заебала школота, один спиздил статью, а все остальные у него пиздят…