Основной контент книги Программное извлечение данных из word-документов на основе ситуационно-ориентированного подхода
Текст PDF

Объем 18 страниц

2021 год

0+

Программное извлечение данных из word-документов на основе ситуационно-ориентированного подхода

Бесплатно
168 ₽
Подарите скидку 10%
Посоветуйте эту книгу и получите 16,81 ₽ с покупки её другом.

О книге

В статье рассмотрены вопросы применения ситуационно-ориентированного подхода для программной обработки word-документов. Рассматриваемые документы подготавливаются пользователем в среде текстового процессора Microsoft Word или его аналогов и используются в дальнейшем как источники данных. Открытость форматов Office Open XML и Open Document Format позволила применить концепцию виртуальных документов, отображаемых на ZIP-архивы, для программного доступа к XML-компонентам word-документов в ситуационно-ориентированной среде. Обоснована важность выработки предварительных соглашений относительно размещения информации в документе для последующего поиска и извлечения, например, с помощью заранее подготовленных шаблонов-заготовок. Для форматов DOCX и ODT рассмотрено использование ключевых фраз, закладок, элементов управления контентом, пользовательских XML-компонентов для организации извлечения введенных данных. Для каждого варианта построены древовидные модели доступа к извлекаемым данным, а также соответствующие XPath-выражения. Отмечено, что использование того или иного варианта зависит от функциональных возможностей и ограничений текстового процессора и характеризуется различной сложностью разработки шаблона-заготовки, внесения данных пользователем и программирования извлечения данных. Рассмотрен практический пример обработки метаданных научной статьи, подготовленной в среде Microsoft Word для публикации в научном журнале. Примененное решение основано на занесении метаданных в статью с помощью размещенных в шаблоне-заготовке элементов управления контентом, привязанных к элементам пользовательского XML-компонента. Разработанная иерархическая ситуационная модель HSM обеспечивает извлечение XML-компонента, загрузку его в DOM-объект и XSLT-преобразования для получения результирующих данных: отчета об ошибках и JavaScript-кода для последующего использования извлеченных метаданных.

Другие версии

1 книга от 1 080 ₽
Входит в серию "Прикладная информатика. Научные статьи"
Все книги серии
Войдите, чтобы оценить книгу и оставить отзыв
Книга А. С. Гусаренко, В. В. Миронова и др. «Программное извлечение данных из word-документов на основе ситуационно-ориентированного подхода» — скачать в pdf или читать онлайн. Оставляйте комментарии и отзывы, голосуйте за понравившиеся.
Возрастное ограничение:
0+
Дата выхода на Литрес:
01 февраля 2022
Дата написания:
2021
Объем:
18 стр.
Общий размер:
965 КБ
Общее кол-во страниц:
18
Правообладатель:
Синергия
Формат скачивания:
Текст PDF
Средний рейтинг 0 на основе 0 оценок
Текст PDF
Средний рейтинг 0 на основе 0 оценок
Текст PDF
Средний рейтинг 0 на основе 0 оценок
Текст PDF
Средний рейтинг 4 на основе 2 оценок
Текст PDF
Средний рейтинг 4,2 на основе 9 оценок
Текст PDF
Средний рейтинг 5 на основе 1 оценок
По подписке
Текст PDF
Средний рейтинг 0 на основе 0 оценок
Текст PDF
Средний рейтинг 3,9 на основе 36 оценок