使用pl sql读取.docx和.pdf文件

时间:2015-07-12 15:07:04

标签: sql oracle pdf plsql docx

我想使用PL / SQL读取存储在本地磁盘中的.docx和.pdf文件。我想从.docx或.pdf文件中提取一些数据,如姓名,联系人,电子邮件地址。

这一切都使用PL / SQL。

任何帮助将不胜感激。

1 个答案:

答案 0 :(得分:3)

Oracle有一个处理自由文本的产品Oracle Text。这可以处理常见的二进制格式:Word和PDF应该没问题。 Find out more

Text支持针对各种用例搜索具有不同索引类型的文档。但是,与普通索引一样,它们非常适合于相等搜索。也就是说,我们可以在文档中搜索特定电子邮件,如下所示:

select * from t23
where contains(col_t, 'muhammad.hannan@example.com') > 0
/

但在从文档中提取所有电子邮件地址时,它并不是很有帮助。这就是为什么我们为自然提供了定义结构化文档(XML,JSON)的工具的原因。那么Text将如何支持您的实际用例取决于您尚未发布的详细信息。

您的问题是'本地文件'。 Oracle Text将work with BFILEs,即外部存储的文件。使用BFILE数据类型定义表列。 Find out more.

但是,BFILE必须保存在数据库服务器上的OS目录中(即数据库本地而不是PC),这些目录受预期的安全权限限制。了解creating Directories here