我的CSV包含带PDF的网址列表:
我想确定哪些PDF可以从我的PDF列表中搜索到。是否有捷径可寻?
答案 0 :(得分:6)
在命令行上,我使用pdffonts
来确定文件使用的字体。这运行得相当快......
pdffonts bash-manpage.pdf name type encoding emb sub uni object ID ------------------------------- ------------- --------------- --- --- --- --------- Times-Roman Type 1 Custom no no no 8 0 Times-Bold Type 1 Standard no no no 9 0 Helvetica Type 1 Custom no no no 11 0 Helvetica-Bold Type 1 Standard no no no 30 0
pdffonts scanned-book.pdf pdffonts handmade.pdf name type encoding emb sub uni object ID ------------------------------- -------------- -------------- --- --- --- ---------
示例1显示了一个包含字体名称的表。这意味着要搜索 IS 文字。
示例2显示了一个空表。没有字体,没有要搜索的文本(除非你在文件上运行OCR首先嵌入任何找到的文本......但是你创建了一个不同的文件!),不要回头看看这些...
注意:要成功实际提取嵌入的文本,因此能够搜索它是一个完全不同的问题。在许多情况下,您会发现它非常困难 - 特别是如果您在字体'表格中看到CID Type
字体类型与'自定义'编码。您可能首先要从PDF中搜索其他questions that were asked about text extraction的stackoverflow ...