Программное извлечение данных из word-документов на основе ситуационно-ориентированного подхода
ТекстTextPDF

Umfang 18 seiten

2021 Jahr

0+

Andere Versionen

1 Buch
Программное извлечение данных из word-документов на основе ситуационно-ориентированного подхода

Программное извлечение данных из word-документов на основе ситуационно-ориентированного подхода

1,63 €

Über das Buch

В статье рассмотрены вопросы применения ситуационно-ориентированного подхода для программной обработки word-документов. Рассматриваемые документы подготавливаются пользователем в среде текстового процессора Microsoft Word или его аналогов и используются в дальнейшем как источники данных. Открытость форматов Office Open XML и Open Document Format позволила применить концепцию виртуальных документов, отображаемых на ZIP-архивы, для программного доступа к XML-компонентам word-документов в ситуационно-ориентированной среде. Обоснована важность выработки предварительных соглашений относительно размещения информации в документе для последующего поиска и извлечения, например, с помощью заранее подготовленных шаблонов-заготовок. Для форматов DOCX и ODT рассмотрено использование ключевых фраз, закладок, элементов управления контентом, пользовательских XML-компонентов для организации извлечения введенных данных. Для каждого варианта построены древовидные модели доступа к извлекаемым данным, а также соответствующие XPath-выражения. Отмечено, что использование того или иного варианта зависит от функциональных возможностей и ограничений текстового процессора и характеризуется различной сложностью разработки шаблона-заготовки, внесения данных пользователем и программирования извлечения данных. Рассмотрен практический пример обработки метаданных научной статьи, подготовленной в среде Microsoft Word для публикации в научном журнале. Примененное решение основано на занесении метаданных в статью с помощью размещенных в шаблоне-заготовке элементов управления контентом, привязанных к элементам пользовательского XML-компонента. Разработанная иерархическая ситуационная модель HSM обеспечивает извлечение XML-компонента, загрузку его в DOM-объект и XSLT-преобразования для получения результирующих данных: отчета об ошибках и JavaScript-кода для последующего использования извлеченных метаданных.

Hinterlassen Sie eine Bewertung

Einloggen, um das Buch zu bewerten und eine Rezension zu hinterlassen
Buch А. С. Гусаренко, В. В. Миронова et al. «Программное извлечение данных из word-документов на основе ситуационно-ориентированного подхода» — als pdf herunterladen oder online lesen. Hinterlassen Sie Kommentare und Bewertungen, stimmen Sie für Ihre Favoriten.
Altersbeschränkung:
0+
Veröffentlichungsdatum auf Litres:
01 Februar 2022
Schreibdatum:
2021
Umfang:
18 S.
Gesamtgröße:
965 КБ
Gesamtanzahl der Seiten:
18
Rechteinhaber:
Синергия
Download-Format:
pdf