如果我可以从PDF中的每个页面获取任何文本,我正在检查PDF文档是否可搜索。
但是,当我尝试从包含超过500~2000页的PDF中提取文本时,检查每个页面似乎都是永远的。
PDF是否可以包含一页的文本而不包含其他页面的文本? 我在这里要做的是,如果PDF的第一页包含文本,那么它是可搜索的PDF,而不是..
答案 0 :(得分:2)
是的,PDF很可能在一个页面上包含文本而在其他页面上不包含文本。你很可能有一个500页的PDF,其中包含前499页的图像,但在最后一页上包含文字。
除非您想自己打开PDF文件并扫描文本/文本操作,否则您需要使用现有的第三方PDF库,它允许您从PDF中提取文本。
另外,请参阅Ferruccio对相关question的回复,即使用IFilter接口,专门用于搜索索引和文本提取。
答案 1 :(得分:0)
试用此版本的Searcharoo,可以搜索Word和PDF文档。