Парсер контента для ICMS 2.11.х PHP 5.6 - 7.1+

instantcms.2 Парсер контента для ICMS 2.11.х PHP 5.6 - 7.1+ 1.6.6

Нет прав для скачивания
Возможности компонента

Компонент "Парсер контента" предназначен для получения контента с любого рода интернет-ресурсов, его обработки и публикации на сайте. В отличии от RSS-парсеров вы не ограничены списками RSS-лент, а можете получать контент с любых ресурсов. Парсер получает контент непосредственно из HTML-кода страниц сайта-источника.
Например, вы хотите на своем сайте публиковать новости из новостной ленты другого сайта или вас интересуют только определенные статьи. Вы создаете задание, указываете все необходимые параметры и парсер делает это вместо вас. Причем парсинг может работать в двух режимах - ручном и автоматическом(если у вас настроен CRON). Настроив несколько десятков источников вы можете получать до 500-1000 публикаций в сутки. Пример подобной работы парсера вы можете посмотреть на сайте ic-press.ru.
На практике это выглядит так - вы можете самостоятельно запускать созданное вами задание из панели упраления, или доверить его запуск cron-у, указав интервал времени, через которое данное задание необходимо выполнить. Результатом работы будет получение указанного вами в задании числа публикаций. Причем эти публикации могут быть опубликованы на cайте или отложены на модерацию и решение о публикации каждого конкретного материала вы можете принять самостоятельно.
Перед публикацией материала на сайте в ручном режиме вы можете просматривать и редактировать полученный контент, менять категорию для публикации и выполнять ряд стандартных действий. Этим пожалуй никого не удивишь. Однако есть ряд функций, которые парсер сделает за вас в автоматическом режиме. Вот некотрые из основных возможностей автоматической обработки текста:

Автоматическое создание превью
Парсер автоматически загрузит обложку статьи и создаст нужные превью изображений к статье. При удалении статьи в интерфейсе парсера данные изображения будут удалены с сервера.

Загрузка изображений из тела статьи
Если контент сайта-источника предполагает наличие картинок в теле статьи, вы можете приказать парсеру загружать картинки на ваш сервер. Для загрузки изображений используются стандартные средства системы, автоматически создаются указанные вами пресеты(micro, small, normal, big и т.д.). Таким образом вы можете выбрать только нужные вам пресеты изображений. При удалении статьи в интерфейсе парсера данные изображения будут удалены с сервера.

Замена тегов
Предположим, что структура контента на вашем сайте построена с использование тегов <p>...</p>, а контент, размещенный на сайте-источнике имеет верстку, основанную на тегах <div>...</div>. Прасер может автоматически заменять теги div на тег p, тем самым адаптируя контент источника под ваш сайт. Также вы можете заменять любые другие теги.

Замена аттрибутов
В ходе парсинга вам хотелось бы изменить внешний вид элементов или добавить интерактивности? Нет ничего проще - просто укажите, какие аттрибуты вы бы хотели добавить/заменить и это будет сделано автоматически в ходе получения статьи. Данная опция позволяет менять классы, ID, стили элементов на нужные вам. Например заменить курсив жирным текстом или добавить к картинкам на странице аттрибуты для Lightbox.

Удаление мусора
Если в тексте получаемой статьи присутствуют инородные вкрапления - рекламные вставки, теги разметки или ненужный вам текст вы можете указать это в настройках парсера и он удалит эти элементы сделав текст статьи чистым.

А также ...
Это краткий список возможностей, более подробное описание вы найдете на страницах этого руководства, посвященных конкретным темам. Полученный результат целиком и полностью зависит от точности настройки того или иного задания. На настройку парсинга с одного сайта вам может потребоваться 5 минут, на настройку другого - час. Это обусловлено разной структурой сайтов и правильностью HTML-верстки. Но, как показывает практика, в 99% случаев вы можете получить отличный результат не требующий правки и готовый к публикации. Парсер сделан для людей, не знающих, что такое регулярные выражения и прочие заумные вещи. Процесс настройки парсера сведен к минимуму и логически прост, поэтому думаю ни у кого не возникнет сложностей в его использовании..

Внимание: Мы старались сделать так, чтобы однажды настроив задание вы могли забыть про него раз и навсегда. Т.е. полученный контент полностью бы соответствовал всем выдвинутым вами требованиям. Однако мы не можем гарантировать, что инструментарий парсера позволит получить 100% правильный и валидный контент с абсолютно любого сайта. С 99% сайтов - да, но не с 100%. Это обусловлено целым рядом параметров - особенностями разметки, отсутствием структуры как таковой, нетрадициоными кодировками и прочими досадными мелочами. Однако, повторюсь - как показывает практика, доля таких сайтов не превышает 1% и если вам доведется столкнуться с такой ситуацией - это единичный случай.

Пароль на архив:

Генерация ключа происходит все тамже))))
  • 3c346ca3.png
    3c346ca3.png
    30.7 KB · Просмотры: 59
  • 8bad32f4.png
    8bad32f4.png
    29.6 KB · Просмотры: 60
  • 28c0d458.png
    28c0d458.png
    71.7 KB · Просмотры: 58
  • 64329e59.png
    64329e59.png
    250.1 KB · Просмотры: 61
  • 42902590.png
    42902590.png
    295.9 KB · Просмотры: 64
  • a9e131ad.png
    a9e131ad.png
    82.6 KB · Просмотры: 60
  • ad98a24f.png
    ad98a24f.png
    44.9 KB · Просмотры: 56
  • cff75f34.png
    cff75f34.png
    47.5 KB · Просмотры: 53
  • fff57c9a.png
    fff57c9a.png
    83.6 KB · Просмотры: 56
Автор
Anthrax
Скачивания
43
Просмотры
358
Тип расширения
zip
Размер файла
351.9 KB
Hash
a80fc8b91715a227df8688aa0cfa1bc6
Первый выпуск
Обновление
Оценка
0.00 звёзд 0 оценок

Другие ресурсы пользователя Anthrax

Сверху