如何在pdf文件中搜索字符串

时间:2012-05-09 07:14:39

标签: lucene.net

  

可能重复:
  How to index pdf, ppt, xl files in lucene (java based or python or php any of these is fine)?

我需要在包含pdf,docx,txt格式的文件夹中的文件集合中搜索字符串。是否可以使用lucene.net搜索字符串。

请提供一些有用的参考资料..

谢谢你..

1 个答案:

答案 0 :(得分:5)

您需要提取各种文件的文本(pdf,docx,txt)并将该文本插入到Lucene索引中。 Lucene无法从各种文档格式中读取文本

通常在.net中搜索“提取{文档格式}文本”,您应该找到大量资源。