通过OCR从文档中获取数据到SAP

2020-08-19 23:22发布

点击此处---> 群内免费提供SAP练习系统(在群公告中)加入QQ群:457200227(SAP S4 HANA技术交流) 群内免费提供SAP练习系统(在群公告中)嗨, 我们需要扫描政府提供的进...

         点击此处--->   EasySAP.com群内免费提供SAP练习系统(在群公告中)

加入QQ群:457200227(SAP S4 HANA技术交流) 群内免费提供SAP练习系统(在群公告中)


嗨,

我们需要扫描政府提供的进出口许可证的纸质副本,并通过诸如OCR之类的自动化方法将从文件中获取的值存储在SAP中。 如何在SAP中实现这一目标?

我在SAP API Hub(光学字符识别(OCR)推理服务)中找到了一个API。 该API以字符串形式返回在上载文件中找到的字符,我们需要处理响应才能获取关键字段。 但这有点困难,因为响应可能会因扫描的许可证而异。 有没有人使用SAP OCR API处理扫描的文档?

3条回答
软件心理学工程师
2020-08-20 00:03 .采纳回答

嗨,

这是一个不平凡的项目。 我会使用 ocrmypdf 之类的工具(免费,由Google用于其图书项目) 使用 tesseract (可以直接创建hocr)

在创建pdf之后或在此过程中,还使用 poppler 等免费工具来创建xml文件。 =" nofollow" hraf=" https://github.com/kermitt2/pdfalto"> pdfalto 或使用在此过程中创建的hocr。

这些工具不仅会创建单个字符,还会创建单词或文本行及其在页面上的位置。 您可以摆弄一个单词的参数,但是默认值在英语和德语中效果很好。

解析xml例如 使用cl_xml_document或进行转换

请注意,例如 从顶部开始的位置可以在一行中变化,具体取决于原始文件的创建方式。 根据您的需要,您必须调整位置。 如果每个文本元素的位置都正确,则可以按逻辑方式提取数据。

如果您的数据结构简单,则以下解决方案可能也已足够。

连接字符串中的所有"单词"并使用正则表达式。

祝您好运。

一周热门 更多>