Что такое грабберы и парсеры и зачем они нужны?

15 января 2013 г. Время чтения: 1 минута Опубликовано в разделах: Блог, Общее

В последнее время, одним из ведущих направлений веб-разработки стали всевозможные парсеры и грабберы. Цель данных приложений проста – автоматическое извлечение информации с других сайтов или документов.

Что такое граббер и что такое парсер?
На сегодняшний день для современных систем управления, уже реализовано довольно большое количество разнообразных грабберов. Греббер – это веб-приложение, основной задачей которого является взять информацию с какого-либо сайта и опубликовать на своем. То есть это своего рода «автонаполнитель» сайта. Одним из самых распространённых является граббер RSS лент.

Парсер по своей сущности преследует те же задачи – взять информацию с сайта, но в отличии от граббера, парсер способен взять только определенную часть информации, например только заголовки новостей и очистить взятые контент от лишнего «мусора». Сегодня оба этих понятия используются как синонимы.

Зачем нужны грабберы и парсеры?
1. Для актуализации представленной на сайте информации. Например, на Вашем сайте расположен информер котировок и Вашим пользователям очень важно знать актуальную информацию. Мы могли бы обновлять эту информацию вручную, что было бы не очень удобно, а в некоторых случаях и вовсе невозможно. Именно в таких случаях нам пригодится граббер или php парсер, который будет заходить на определенный сайт, сравнивая актуальность информации и при необходимости обновлять её.

2. Для автоматического наполнения сайта. Ни для кого не новость, что в Интернете множество сайтов, информация на которых не обновляется годами. Происходит это по разным причинам, но, несмотря на это, поисковые системы начинают утрачивать доверие к таким сайтам и как следствие идет снижение посещаемости и продаж. Вы можете сделать свой более динамичным, если установите граббер новостей с тематического сайта, который автоматически будет публиковать их на Вашем ресурсе. Это сделает Ваш сайт динамичным, но не забывайте и о том, что поисковые системы не любят не уникальный контент, а значит, этот контент требует хотя бы частичной переработки.

3. Мгновенное наполнение сайта необходимой информациейВсе сайты когда-то начинались «с нуля». Но если Вы решили организовать каталог ссылок, телефонный справочник, сайт рефератов, текстов песен или тому подобные ресурсы, то наполнять сайт вручную – процесс очень трудоемкий. Ваш сайт станет интересен пользователям только тогда, когда он будет содержать внушительную базу контента. Парсер или граббер станет идеальным решение для решения подобной задачи. Их использование позволит Вам в кратчайшие сроки собрать большую информационную базу, догнав своих конкурентов.

5. Интегрирование (объединение и централизация) контента. На просторах Интернет огромное количество информационных страниц, которые несут в себе важную (полезную) информацию для пользователя. Используя парсеры или грабберы контента, Вы сможете объединить контент разных сайтов в единое целое, например: многие пользователи читают 2-3 автомобильных журнала, почему бы не объединить их в один сайт, «грабя» их новости и размещая на своём ресурсе. Обычно обладатели таких ресурсов не прячут ссылки на первоисточники. Их цель – это удобство пользователя и полнота получаемой информации.

Уроки грабберства
В исходном коде любого граббера или парсера лежит регулярное выражение.

Регулярное выражение — это язык описания текста, определенная конструкция, которая позволяет извлечь из текста необходимые его участки, другими словами шаблон, по которому в дальнейшем происходит скачивание контента с сайта. Основная сложность заключается в умении правильно составить шаблон. В языке программирование php поддерживаются несколько видов регулярных выражений: POSIX и PERL — совместимые.

Ниже приведен пример использования регулярного выражения, которое выискивает среди текста почтовые адреса:

/([a-zA-Z][a-zA-Z0-9_.-]*@[a-zA-Z0-9_.-]+) s+/si

Используя такой шаблон, можно без особого труда отделить адреса электронной почты от другого текста.

Понравился пост?

Подпишитесь на ежедневное обновление нашего блога прямо сейчас! Будьте в курсе новостей интернет-маркетинга!

Интернет-магазин и развитие
Получать новости компании 


×
Пакетное предложение
Получать новости компании 


×
Интернет-магазин и развитие на 100%
Получать новости компании 


×
Пакетное предложение
Получать новости компании 


×
Корпоративный сайт и развитие
Получать новости компании 


×
Пакетное предложение
Получать новости компании 


×
Корпоративный сайт и развитие на 100%
Получать новости компании 


×
Пакетное предложение
Получать новости компании 


×
Сайт-визитка и развитие
Получать новости компании 


×
Сайт-визитка, тексты и развитие
Получать новости компании 


×
Сайт-визитка и развитие на 100%
Получать новости компании 


×
Сайт, тексты и развитие (36 262 р)
Получать новости компании 


×
Лэндинг пейдж и Яндекс.Директ
Получать новости компании 


×
Лэндинг пейдж и Google.Adwords
Получать новости компании 


×
Лэндинг пейдж и Яндекс.Директ и Adwords
Получать новости компании 


×
Лэндинг пейдж и Яндекс.Директ 35 300 руб.
Получать новости компании 


×
Пакетное предложение
Получать новости компании 


×
Пакетное предложение
Получать новости компании 


×
Пакетное предложение
Получать новости компании 


×
Пакетное предложение
Получать новости компании 


×
Пакетное предложение
Получать новости компании 


×
Пакетное предложение
Получать новости компании 


×
Пакетное предложение
Получать новости компании 


×
Пакетное предложение
Получать новости компании 


×
Пакетное предложение
Получать новости компании 


×
Пакетное предложение
Получать новости компании 


×
Пакетное предложение
Получать новости компании 


×
Пакетное предложение
Получать новости компании 


×
Пакетное предложение
Получать новости компании 


×
Пакетное предложение
Получать новости компании 


×
Курс «Продвижение сайта без бюджета»
Получать новости компании 


×
Курс «Продвижение сайтов. Модуль 2»
Получать новости компании 


×
Курс «Профессиональная работа с контекстной рекламой»
Получать новости компании 


×
Курс «Создание Landing page + Яндекс.Директ»
Получать новости компании 


×
Курс «Создание сайта на Joomla 3! Модуль 2. Разработка»
Получать новости компании 


×
Курс «Создание интернет-магазина на VirtueMart»
Получать новости компании 


×
Курс «Создание интернет-магазина на VirtueMart»
Получать новости компании 


×
Курс «WordPress. Модуль 1. Управление сайтом»
Получать новости компании 


×
Курс«WordPress. Модуль 2. Разработка»
Получать новости компании 


×
Курс «Создание интернет-магазина»
Получать новости компании 


×
Курс «Создание сайта на основе CMS/HTML»
Получать новости компании 


×
Курс «Профессиональная веб-аналитика Google и Яндекс»
Получать новости компании 


×
Курс «Непоисковое продвижение сайтов в Интернет»
Получать новости компании 


×
Лэндинг пейдж на готовом дизайне и Яндекс.Директ
Получать новости компании 


×
Лэндинг пейдж на готовом дизайне и Яндекс.Директ
Получать новости компании 


×
Лэндинг пейдж на готовом дизайне и Google Adowrds
Получать новости компании 


×
Лэндинг пейдж на готовом дизайне и Яндекс.Директ и Google Adowrds
Получать новости компании 


×
Лэндинг пейдж на готовом дизайне и Яндекс.Директ и Google Adowrds 2 месяца
Получать новости компании 


×