通过OCR从文档中获取数据到SAP

1楼 · 2020-08-20 00:03.采纳回答

嗨，

这是一个不平凡的项目。我会使用 ocrmypdf 之类的工具（免费，由Google用于其图书项目）使用 tesseract （可以直接创建hocr）

在创建pdf之后或在此过程中，还使用 poppler 等免费工具来创建xml文件。 =" nofollow" hraf=" https://github.com/kermitt2/pdfalto"> pdfalto 或使用在此过程中创建的hocr。

这些工具不仅会创建单个字符，还会创建单词或文本行及其在页面上的位置。您可以摆弄一个单词的参数，但是默认值在英语和德语中效果很好。

解析xml例如使用cl_xml_document或进行转换

请注意，例如从顶部开始的位置可以在一行中变化，具体取决于原始文件的创建方式。根据您的需要，您必须调整位置。如果每个文本元素的位置都正确，则可以按逻辑方式提取数据。

如果您的数据结构简单，则以下解决方案可能也已足够。

连接字符串中的所有"单词"并使用正则表达式。

祝您好运。

太Q了

2楼-- · 2020-08-20 00:03

"存储值"的精确度如何？预计文档扫描量是多少？

"响应可能会有所不同"-很抱歉，如果某个API可以在任何地方识别特定字段，您究竟期望它如何？ OCR程序通常依赖于特定的一致格式（它们需要知道所需字段的确切位置）或某种需要为其提供的模式（例如，查找特定单词旁边的数字等）。这些都不是开箱即用的。

SAP砖家

3楼-- · 2020-08-19 23:57

市场上有很多OCR/ICR工具。但是基于输入文档的结构（半/un结构/fixed），我们需要选择OCR工具。大多数工具都具有强大的API，可以直接与SAP集成，或者至少可以在电子表格中生成输出/值。我们既可以直接通过API进行消费，也可以使用RPA工具对其进行自动化。我们已经评估了所有OCR工具（Abbey，Kofax，Antworks，Google，IBM Data cap等），并选择了带有RPA组合的OCR工具进行进一步处理。注意：我在这里没有共享OCR/RPA供应商的名称，它可能会根据方案/要求而有所不同

谢谢

通过OCR从文档中获取数据到SAP

点击此处---> 群内免费提供SAP练习系统（在群公告中）

点击此处---> 群内免费提供SAP练习系统（在群公告中）

一周热门更多>

点击此处---> 一起学习S4 HANA ...

相关问答

相关文章

通过OCR从文档中获取数据到SAP

点击此处---> 群内免费提供SAP练习系统（在群公告中）

点击此处---> 群内免费提供SAP练习系统（在群公告中）

一周热门 更多>

点击此处---> 一起学习S4 HANA ...

相关问答

相关文章

采纳回答

编辑标签

举报内容

检举类型

检举原因

检举说明(必填)

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

付费偷看金额在0.1-10元之间

一周热门更多>