从PDF获取数据

2020-08-24 13:34发布

         点击此处--->   EasySAP.com群内免费提供SAP练习系统(在群公告中)

加入QQ群:457200227(SAP S4 HANA技术交流) 群内免费提供SAP练习系统(在群公告中)


你好

由于宣布了社会保障,我们从联邦政府那里得到了一些PDF文件。

我们必须将这些文件连接到相应的人员编号。 可以在PDF文件中找到该编号。

有人可以告诉我们如何在PDF中自动检测该数字吗? 我们如何在ABAP程序中读取这些"非结构化"数据?

该文档不是SAP提供的交互式Adobe表单的结果。

感谢您的帮助。

克里斯

2016年8月1日15-37-44.jpg (71.8 kB)

         点击此处--->   EasySAP.com群内免费提供SAP练习系统(在群公告中)

加入QQ群:457200227(SAP S4 HANA技术交流) 群内免费提供SAP练习系统(在群公告中)


你好

由于宣布了社会保障,我们从联邦政府那里得到了一些PDF文件。

我们必须将这些文件连接到相应的人员编号。 可以在PDF文件中找到该编号。

有人可以告诉我们如何在PDF中自动检测该数字吗? 我们如何在ABAP程序中读取这些"非结构化"数据?

该文档不是SAP提供的交互式Adobe表单的结果。

感谢您的帮助。

克里斯

2016年8月1日15-37-44.jpg (71.8 kB)
付费偷看设置
发送
10条回答
clever101
1楼 · 2020-08-24 13:46.采纳回答

无论实际包含什么pdf(位图,压缩图像,文本块,标签,表格),都不要指望一个简单的单一的Abap解决方案(仅用于文本,具有pdf技术规范的丰富知识并链接到一些Adobe库)。 )-在Adobe论坛上搜索Google ...

更好地寻找附加组件/应用程序,是否已经有任何OCR/取消实现工具可用于扫描公司收到的发票或交货单,信件,传真,如SAP/Open Text,Readsoft以及您系统中的许多其他功能?

问候,

Raymond

wang628962
2楼-- · 2020-08-24 14:05

Hi Kris,

Matthew 是正确的,PI中没有内置的PDF到文本转换器。 但是,有一些开源API,例如Apache PDFBox,可让您从PDF文档中提取文本数据。 在那种情况下,您还可以使用这些库在PI中创建自定义适配器模块,以提取感兴趣的内容(SSN)并生成适当的消息,以传递到您的后端系统以进行处理/链接,如您所述。 将文件的有效负载转换为XSTRING或base64格式并包括提取的内容,以便您可以与适当的SSN#链接-也许可以使用附件,但我从未尝试过这样做,所以我不能说。

< p>关于

Ryan Crosby

xfwsx85
3楼-- · 2020-08-24 13:54

您感兴趣的位可能会保留为位图-如果是这种情况,则需要某种OCR。 如果您很幸运并且被保留为文本,可以使用许多免费工具将PDF转换为文本。 您可以在应用程序服务器上运行其中之一来进行转换。 然后,这只是解析文本输出的问题。

黑丝骑士
4楼-- · 2020-08-24 13:47

嗨,

我们已经研究了这种可能性。 但这是行不通的,因为PDF并非交互式表单的结果。 正是这个问题。

CPLASF-自律
5楼-- · 2020-08-24 14:01

如果您要使用ABAP程序,那么这是不可行的。 马修已经对转换作了回答,因此不确定是否需要其他答复...

大道至简
6楼-- · 2020-08-24 14:00

提交,

联邦政府显然无法更改名称。 真可惜。

还是谢谢。

Kris

小灯塔
7楼-- · 2020-08-24 13:40

也许您应该看看 Adob​​e交互式表单 ...生成PDF表单非常有用。 也许您可以用它来读取PDF ...

一周热门 更多>