自动删除一些pdf内容

时间:2016-05-09 10:16:49

标签: pdf extraction

我必须从大量.pdf文件中提取一些特定数据。我的问题是我要做的第一件事就是将.pdf转换为.txt,以便我可以轻松找到我感兴趣的数据。转换后,.txt文件中有大量的人工制品(如页码,内容的超链接)页面,页脚,标题等)。这些.pdf文件非常庞大(每个文件都是约7-12小时的人们说话的转录)所以我根本无法负担得起手动删除这些东西(我有~60 .pdf文件)。我的问题是 - 有人知道一个允许自动删除这些内容的工具吗?

我很高兴听到每一个能改善我工作的建议:)谢谢!

0 个答案:

没有答案