应用错误收集

使用Python从PDF文件中进行文本挖掘

时间：2018-09-01 05:08:01

标签： python pypdf2

我有一家公司的年度报告（.pdf格式），我想使用python获取资产负债表和其他相关报告表格的年度报告。我尝试使用PyPDF2 lib，但它正在提取高度非结构化的文本。有什么办法吗？

2 个答案:

答案 0 :(得分：0)

您应该使用textract

https://github.com/deanmalmgren/textract

它支持各种文件类型的文本提取。

答案 1 :(得分：0)

您的问题不是很清楚。我了解这一点，因为我在提取英国年度报告方面做了很多工作。为了向他人解释，您的要求听起来很简单，但实际上却是一场噩梦。年度报告以PDF格式提供，并且没有一家生产这些报告的公司遵循任何标准，这使得即使手动分析该报告也很困难。将PDF转换为文本时，PDF的结构松散。我有一个Java工具，可以读取和检测UK PDF年度报告的结构（类似于您在链接中提供的结构）。我花了5年的时间提出了一个解决方案，尽管它们之间存在巨大差异，但该解决方案可以处理多达95％的英国年度报告。看看：https://github.com/drelhaj/CFIE-FRSE上有指向我们如何做的论文的链接。