通过OCR从文档中获取数据到SAP-软件心理学工程师的回答

通过OCR从文档中获取数据到SAP

2020-08-19 23:22发布

3条回答

2020-08-20 00:03 .采纳回答

嗨，

这是一个不平凡的项目。我会使用 ocrmypdf 之类的工具（免费，由Google用于其图书项目）使用 tesseract （可以直接创建hocr）

在创建pdf之后或在此过程中，还使用 poppler 等免费工具来创建xml文件。 =" nofollow" hraf=" https://github.com/kermitt2/pdfalto"> pdfalto 或使用在此过程中创建的hocr。

这些工具不仅会创建单个字符，还会创建单词或文本行及其在页面上的位置。您可以摆弄一个单词的参数，但是默认值在英语和德语中效果很好。

解析xml例如使用cl_xml_document或进行转换

请注意，例如从顶部开始的位置可以在一行中变化，具体取决于原始文件的创建方式。根据您的需要，您必须调整位置。如果每个文本元素的位置都正确，则可以按逻辑方式提取数据。

如果您的数据结构简单，则以下解决方案可能也已足够。

连接字符串中的所有"单词"并使用正则表达式。

祝您好运。

通过OCR从文档中获取数据到SAP