2020-08-19 23:22发布
点击此处---> 群内免费提供SAP练习系统(在群公告中)加入QQ群:457200227(SAP S4 HANA技术交流) 群内免费提供SAP练习系统(在群公告中)嗨, 我们需要扫描政府提供的进... 显示全部
加入QQ群:457200227(SAP S4 HANA技术交流) 群内免费提供SAP练习系统(在群公告中)
嗨,
我们需要扫描政府提供的进出口许可证的纸质副本,并通过诸如OCR之类的自动化方法将从文件中获取的值存储在SAP中。 如何在SAP中实现这一目标?
我在SAP API Hub(光学字符识别(OCR)推理服务)中找到了一个API。 该API以字符串形式返回在上载文件中找到的字符,我们需要处理响应才能获取关键字段。 但这有点困难,因为响应可能会因扫描的许可证而异。 有没有人使用SAP OCR API处理扫描的文档?
这是一个不平凡的项目。 我会使用 ocrmypdf 之类的工具(免费,由Google用于其图书项目) 使用 tesseract (可以直接创建hocr)
在创建pdf之后或在此过程中,还使用 poppler 等免费工具来创建xml文件。 =" nofollow" hraf=" https://github.com/kermitt2/pdfalto"> pdfalto 或使用在此过程中创建的hocr。
这些工具不仅会创建单个字符,还会创建单词或文本行及其在页面上的位置。 您可以摆弄一个单词的参数,但是默认值在英语和德语中效果很好。
解析xml例如 使用cl_xml_document或进行转换
请注意,例如 从顶部开始的位置可以在一行中变化,具体取决于原始文件的创建方式。 根据您的需要,您必须调整位置。 如果每个文本元素的位置都正确,则可以按逻辑方式提取数据。
如果您的数据结构简单,则以下解决方案可能也已足够。
连接字符串中的所有"单词"并使用正则表达式。
祝您好运。
最多设置5个标签!
嗨,
这是一个不平凡的项目。 我会使用 ocrmypdf 之类的工具(免费,由Google用于其图书项目) 使用 tesseract (可以直接创建hocr)
在创建pdf之后或在此过程中,还使用 poppler 等免费工具来创建xml文件。 =" nofollow" hraf=" https://github.com/kermitt2/pdfalto"> pdfalto 或使用在此过程中创建的hocr。
这些工具不仅会创建单个字符,还会创建单词或文本行及其在页面上的位置。 您可以摆弄一个单词的参数,但是默认值在英语和德语中效果很好。
解析xml例如 使用cl_xml_document或进行转换
请注意,例如 从顶部开始的位置可以在一行中变化,具体取决于原始文件的创建方式。 根据您的需要,您必须调整位置。 如果每个文本元素的位置都正确,则可以按逻辑方式提取数据。
如果您的数据结构简单,则以下解决方案可能也已足够。
连接字符串中的所有"单词"并使用正则表达式。
祝您好运。
一周热门 更多>