Informatica如何处理像PDF这样的非结构化数据源?如果表格报告存储为PDF,我们可以将其作为表格数据(如.NET中的数据表)从PDF中读出来吗?
答案 0 :(得分:2)
答案 1 :(得分:0)
PDF内部实际上非常结构化。最近对PDF规范的修订可能提供了一种方法来保存数据以备外部处理,但PDF文档的主要目标是描述用于打印的文档,因此各种环境和设备都可以打印文档,结果如下:尽可能相似。
如果提供任何额外数据,除了打印文本和线条以形成表格之外,它在很大程度上取决于PDF的创建者。
答案 2 :(得分:0)
您必须使用处理非结构化数据的Informatica B2B数据交换产品。该产品提供的功能可以处理各种非结构化数据,不仅包括PDF,还包括Word,Excel,Star Office,AFP,PostScript,PCL和HTML。您必须使用Informatica B2B数据转换。
以下是供您参考的快速链接。
http://www.informatica.com/us/products/b2b-data-exchange/b2b-data-transformation/