可能重复:
How to index pdf, ppt, xl files in lucene (java based or python or php any of these is fine)?
我需要在包含pdf,docx,txt格式的文件夹中的文件集合中搜索字符串。是否可以使用lucene.net搜索字符串。
请提供一些有用的参考资料..
谢谢你..答案 0 :(得分:5)
您需要提取各种文件的文本(pdf,docx,txt)并将该文本插入到Lucene索引中。 Lucene无法从各种文档格式中读取文本
通常在.net中搜索“提取{文档格式}文本”,您应该找到大量资源。