使用Python从PDF文件中进行文本挖掘

时间:2018-09-01 05:08:01

标签: python pypdf2

我有一家公司的年度报告(.pdf格式),我想使用python获取资产负债表和其他相关报告表格的年度报告。我尝试使用PyPDF2 lib,但它正在提取高度非结构化的文本。有什么办法吗?

2 个答案:

答案 0 :(得分:0)

您应该使用textract

https://github.com/deanmalmgren/textract

它支持各种文件类型的文本提取。

答案 1 :(得分:0)

您的问题不是很清楚。我了解这一点,因为我在提取英国年度报告方面做了很多工作。为了向他人解释,您的要求听起来很简单,但实际上却是一场噩梦。年度报告以PDF格式提供,并且没有一家生产这些报告的公司遵循任何标准,这使得即使手动分析该报告也很困难。将PDF转换为文本时,PDF的结构松散。我有一个Java工具,可以读取和检测UK PDF年度报告的结构(类似于您在链接中提供的结构)。我花了5年的时间提出了一个解决方案,尽管它们之间存在巨大差异,但该解决方案可以处理多达95%的英国年度报告。看看:https://github.com/drelhaj/CFIE-FRSE上有指向我们如何做的论文的链接。