点击此处---> 群内免费提供SAP练习系统(在群公告中)
加入QQ群:457200227(SAP S4 HANA技术交流) 群内免费提供SAP练习系统(在群公告中)
你好
由于宣布了社会保障,我们从联邦政府那里得到了一些PDF文件。
我们必须将这些文件连接到相应的人员编号。 可以在PDF文件中找到该编号。
有人可以告诉我们如何在PDF中自动检测该数字吗? 我们如何在ABAP程序中读取这些"非结构化"数据?
该文档不是SAP提供的交互式Adobe表单的结果。
感谢您的帮助。
克里斯
2016年8月1日15-37-44.jpg (71.8 kB)
无论实际包含什么pdf(位图,压缩图像,文本块,标签,表格),都不要指望一个简单的单一的Abap解决方案(仅用于文本,具有pdf技术规范的丰富知识并链接到一些Adobe库)。 )-在Adobe论坛上搜索Google ...
更好地寻找附加组件/应用程序,是否已经有任何OCR/取消实现工具可用于扫描公司收到的发票或交货单,信件,传真,如SAP/Open Text,Readsoft以及您系统中的许多其他功能?
问候,
Raymond
Hi Kris,
Matthew 是正确的,PI中没有内置的PDF到文本转换器。 但是,有一些开源API,例如Apache PDFBox,可让您从PDF文档中提取文本数据。 在那种情况下,您还可以使用这些库在PI中创建自定义适配器模块,以提取感兴趣的内容(SSN)并生成适当的消息,以传递到您的后端系统以进行处理/链接,如您所述。 将文件的有效负载转换为XSTRING或base64格式并包括提取的内容,以便您可以与适当的SSN#链接-也许可以使用附件,但我从未尝试过这样做,所以我不能说。
< p>关于Ryan Crosby
您感兴趣的位可能会保留为位图-如果是这种情况,则需要某种OCR。 如果您很幸运并且被保留为文本,可以使用许多免费工具将PDF转换为文本。 您可以在应用程序服务器上运行其中之一来进行转换。 然后,这只是解析文本输出的问题。
嗨,
我们已经研究了这种可能性。 但这是行不通的,因为PDF并非交互式表单的结果。 正是这个问题。
如果您要使用ABAP程序,那么这是不可行的。 马修已经对转换作了回答,因此不确定是否需要其他答复...
提交,
联邦政府显然无法更改名称。 真可惜。
还是谢谢。
Kris
也许您应该看看 Adobe交互式表单 ...生成PDF表单非常有用。 也许您可以用它来读取PDF ...
一周热门 更多>