我想使用PL / SQL读取存储在本地磁盘中的.docx和.pdf文件。我想从.docx或.pdf文件中提取一些数据,如姓名,联系人,电子邮件地址。
这一切都使用PL / SQL。
任何帮助将不胜感激。
答案 0 :(得分:3)
Oracle有一个处理自由文本的产品Oracle Text。这可以处理常见的二进制格式:Word和PDF应该没问题。 Find out more
Text支持针对各种用例搜索具有不同索引类型的文档。但是,与普通索引一样,它们非常适合于相等搜索。也就是说,我们可以在文档中搜索特定电子邮件,如下所示:
select * from t23
where contains(col_t, 'muhammad.hannan@example.com') > 0
/
但在从文档中提取所有电子邮件地址时,它并不是很有帮助。这就是为什么我们为自然提供了定义结构化文档(XML,JSON)的工具的原因。那么Text将如何支持您的实际用例取决于您尚未发布的详细信息。
您的问题是'本地文件'。 Oracle Text将work with BFILEs,即外部存储的文件。使用BFILE数据类型定义表列。 Find out more.
但是,BFILE必须保存在数据库服务器上的OS目录中(即数据库本地而不是PC),这些目录受预期的安全权限限制。了解creating Directories here。