Разработана модель автоматического извлечения контента из веб-сайтов и приложений

Системы управления контентом или CMS являются наиболее популярным инструментом для создания контента в Интернете. В последние годы они превратились в основу все более сложной экосистемы веб-сайтов, мобильных приложений и платформ. Чтобы упростить процессы, группа исследователей из Междисциплинарного интернет-института (IN3) при Университете Оберта-де-Каталония (UOC) разработала модель с открытым исходным кодом для автоматизации извлечения контента из CMS. Соответствующее исследование опубликовано в журнале Research Challenges in Information Science.

Модель с открытым исходным кодом представляет собой полнофункциональный научный прототип, который позволяет извлечь структуру данных и библиотеки каждой CMS и создать часть программного обеспечения, выступающего в качестве посредника между контентом и так называемым интерфейсом (конечным интерфейсом). приложение, используемое пользователем). Весь этот процесс выполняется автоматически, что делает его безошибочным и масштабируемым решением, поскольку его можно повторять несколько раз без увеличения его стоимости.

Важность CMS в онлайн-мире

Системы управления контентом (CMS) стоят за более чем 60% страниц, доступных в настоящее время в Интернете. Такие системы, как WordPress, Joomla и Drupal, стали популярными главным образом потому, что они обеспечивают простой пользовательский интерфейс, что позволило всем пользователям, не обладающим техническими знаниями, стать частью цепочки создания онлайн-контента.

«За последние четыре или пять лет эти системы предоставляли информацию не только браузерам, но и мобильным приложениям. CMS имеют интерфейсы прикладного программирования (API), с помощью которых мобильные приложения взаимодействуют для извлечения контента», — пояснила Джоан Гинер Мигелес, студент докторской программы по сетевым и информационным технологиям в группе Исследовательской лаборатории систем, программного обеспечения и моделей (SOM Research Lab) и ведущий автор исследования, в котором описывается новая модель. «Эти системы, известные как безголовые CMS, позволяют контенту, созданному простым способом, использоваться позже на разных платформах».

Таким образом, CMS стали большим контейнером контента и данных, используемых каждым приложением или платформой. Это упростило многие процессы, но также добавило сложностей с точки зрения разработки, что особенно очевидно для организаций, которые управляют большим объемом контента и платформ. Создание нового мобильного приложения все чаще требует сложной работы по разработке, и эти задачи упрощаются моделью, разработанной исследователями IN3.

«Представьте себе крупную контент-компанию, которая управляет более чем тысячей веб-сайтов и приложений и хочет создать новое мобильное приложение, отображающее продукты с каждого из этих веб-сайтов. Если они хотят разработать коннекторы между каждым веб-сайтом и приложением, работа будет огромной. и ресурсоемкий. Он не масштабируется», — добавила Джоан Гинер. «Если API-интерфейсы уже имеют стандартный формат, почему мы не можем также создать средство извлечения контента, которое считывает и понимает API-интерфейсы, представляет их стандартным образом и генерирует коннектор для автоматической отправки информации в новое мобильное приложение? »

Автоматизация извлечения контента из CMS

Модель, разработанная Гинером совместно с его партнерами по исследованиям Абелем Гомесом и Хорди Каботом, исследователем ICREA и руководителем исследовательской лаборатории SOM, значительно упрощает процесс разработки нового приложения и, в свою очередь, приводит к значительной экономии времени и средств. Ресурсы. Процесс, который был разработан благодаря финансированию европейских проектов AIDOaRT и TRANSACT, направлен на извлечение и представление модели CMS четким и автоматическим способом, чтобы упростить ее использование в качестве источника информации. Кроме того, технологическое предложение исследователей IN3 направлено на создание кода, который будет служить связующим звеном между CMS и разработкой новых приложений.

Чтобы добиться этого, первым шагом является предоставление инструменту адреса и информации для входа в CMS. После входа в систему он считывает API, понимает его и использует процесс обратной разработки для стандартного представления структуры и библиотек содержимого CMS. На основе этого он автоматически генерирует код коннектора, через который CMS и разрабатываемое новое мобильное приложение будут общаться.

«Это способ стандартизации процесса между CMS и конечным приложением», — подчеркнула Джоан Гинер. «Его самым большим преимуществом является, по сути, сама стандартизация. Мы говорим о процессе, который часто повторяется в организациях, управляющих контентом; процесс, который каждый раз включает в себя создание конкретной группы разработчиков, что требует затрат на ряд ресурсов и, кроме того, может генерировать ошибки. Благодаря автоматизации все упрощается и становится более масштабируемым».

Таким образом, эта модель автоматизации извлечения CMS ориентирована на масштабируемость, поскольку после создания схемы и кода CMS их можно повторно использовать столько раз, сколько необходимо, и интегрировать в будущие проекты разработки без дополнительных затрат.

Исследователи также отмечают, что это автоматическая модель, которая создает библиотеки безошибочного контента, тогда как, если работа выполняется вручную, разработчики всегда могут ошибиться в строке кода.

«Системы управления контентом являются основным источником контента в Интернете. Мы делаем возможным стандартизировать доступ к CMS, точно так же, как в прошлом был стандартизирован доступ к базам данных», — заключила Джоан Гинер. «В будущем эту модель можно будет даже использовать для превращения CMS в новый источник данных для обучения систем искусственного интеллекта».