2020-08-19 23:22发布
加入QQ群:457200227(SAP S4 HANA技术交流) 群内免费提供SAP练习系统(在群公告中)
嗨,
我们需要扫描政府提供的进出口许可证的纸质副本,并通过诸如OCR之类的自动化方法将从文件中获取的值存储在SAP中。 如何在SAP中实现这一目标?
我在SAP API Hub(光学字符识别(OCR)推理服务)中找到了一个API。 该API以字符串形式返回在上载文件中找到的字符,我们需要处理响应才能获取关键字段。 但这有点困难,因为响应可能会因扫描的许可证而异。 有没有人使用SAP OCR API处理扫描的文档?
这是一个不平凡的项目。 我会使用 ocrmypdf 之类的工具(免费,由Google用于其图书项目) 使用 tesseract (可以直接创建hocr)
在创建pdf之后或在此过程中,还使用 poppler 等免费工具来创建xml文件。 =" nofollow" hraf=" https://github.com/kermitt2/pdfalto"> pdfalto 或使用在此过程中创建的hocr。
这些工具不仅会创建单个字符,还会创建单词或文本行及其在页面上的位置。 您可以摆弄一个单词的参数,但是默认值在英语和德语中效果很好。
解析xml例如 使用cl_xml_document或进行转换
请注意,例如 从顶部开始的位置可以在一行中变化,具体取决于原始文件的创建方式。 根据您的需要,您必须调整位置。 如果每个文本元素的位置都正确,则可以按逻辑方式提取数据。
如果您的数据结构简单,则以下解决方案可能也已足够。
连接字符串中的所有"单词"并使用正则表达式。
祝您好运。
"存储值"的精确度如何?预计文档扫描量是多少?
"响应可能会有所不同"-很抱歉,如果某个API可以在任何地方识别特定字段,您究竟期望它如何? OCR程序通常依赖于特定的一致格式(它们需要知道所需字段的确切位置)或某种需要为其提供的模式(例如,查找特定单词旁边的数字等)。 这些都不是开箱即用的。
市场上有很多OCR/ICR工具。 但是基于输入文档的结构(半/un结构/fixed),我们需要选择OCR工具。 大多数工具都具有强大的API,可以直接与SAP集成,或者至少可以在电子表格中生成输出/值。 我们既可以直接通过API进行消费,也可以使用RPA工具对其进行自动化。 我们已经评估了所有OCR工具(Abbey,Kofax,Antworks,Google,IBM Data cap等),并选择了带有RPA组合的OCR工具进行进一步处理。 注意:我在这里没有共享OCR/RPA供应商的名称,它可能会根据方案/要求而有所不同
谢谢
最多设置5个标签!
嗨,
这是一个不平凡的项目。 我会使用 ocrmypdf 之类的工具(免费,由Google用于其图书项目) 使用 tesseract (可以直接创建hocr)
在创建pdf之后或在此过程中,还使用 poppler 等免费工具来创建xml文件。 =" nofollow" hraf=" https://github.com/kermitt2/pdfalto"> pdfalto 或使用在此过程中创建的hocr。
这些工具不仅会创建单个字符,还会创建单词或文本行及其在页面上的位置。 您可以摆弄一个单词的参数,但是默认值在英语和德语中效果很好。
解析xml例如 使用cl_xml_document或进行转换
请注意,例如 从顶部开始的位置可以在一行中变化,具体取决于原始文件的创建方式。 根据您的需要,您必须调整位置。 如果每个文本元素的位置都正确,则可以按逻辑方式提取数据。
如果您的数据结构简单,则以下解决方案可能也已足够。
连接字符串中的所有"单词"并使用正则表达式。
祝您好运。
"存储值"的精确度如何?预计文档扫描量是多少?
"响应可能会有所不同"-很抱歉,如果某个API可以在任何地方识别特定字段,您究竟期望它如何? OCR程序通常依赖于特定的一致格式(它们需要知道所需字段的确切位置)或某种需要为其提供的模式(例如,查找特定单词旁边的数字等)。 这些都不是开箱即用的。
市场上有很多OCR/ICR工具。 但是基于输入文档的结构(半/un结构/fixed),我们需要选择OCR工具。 大多数工具都具有强大的API,可以直接与SAP集成,或者至少可以在电子表格中生成输出/值。 我们既可以直接通过API进行消费,也可以使用RPA工具对其进行自动化。 我们已经评估了所有OCR工具(Abbey,Kofax,Antworks,Google,IBM Data cap等),并选择了带有RPA组合的OCR工具进行进一步处理。 注意:我在这里没有共享OCR/RPA供应商的名称,它可能会根据方案/要求而有所不同
谢谢
一周热门 更多>