我使用linux函数将PDF文件列表转换为文本。
命令:
pdftotext -htmlmeta
这适用于我的大多数文件。
但是对于少量它们,这会返回一个空白文本文件。
我的不成功的pdf文件没有加密,没有用户/密码证明,并且它们不是只读的。
答案 0 :(得分:1)
将PDF转换为文本并不是一个明确定义的过程。它可以工作得很棒或根本不工作,具体取决于PDF输入。
这是为什么?因为PDF的任务主要是表示文档的光学,而不是文本内容。 PDF可以是从具有位置信息的纯文本到文本字母的字形的纯图形的所有内容。在后一种情况下,需要在输入上运行OCR以便接收文本信息。这不是由pdftotext
等工具完成的。
有时,PDF中的文本会分散在整个文件中,例如: G。因为首先在PDF中提到所有标准字体字母,然后,在文件的后面,提到所有斜体字体字母(当然还有位置信息,因此光学表示的读者不会注意到这一点,即使标准和斜体在页面上的文本中混合在一起)。将这个混乱重新排列成流畅的文本是一项主要任务,并不是很多转换器能够实现的。
所以我猜你所能做的就是尝试使用更多的转换器来实现PDF到文本(有些比其他转换器更好,有些转换器更适合某些特定输入)或者看到你可以从PDF以外的其他来源获取文本文件。