我正在构建信息检索系统,以多种文件格式搜索文本, 我尝试过 EPocalipse IFilter Lirary,但在尝试阅读 docx 文件时遇到异常,我尝试了 Toxy 库,但它是< strong> doc 阿拉伯语文件,最后我尝试了 TikaOnDotNet Libray但它需要java才能工作,我需要将系统置于主机上,而不是在服务器上安装java
答案 0 :(得分:2)
能够从任何类型的文件中提取所有文本数据的库是{{3}}。它甚至可以从非文本文件(如图像和视频文件)中提取元数据(如果有)。示例用例显示为Apache Tika library。
答案 1 :(得分:1)
使用这些库怎么样:
对于DOC / DOCX: http://www.dotnetperls.com/word
对于PDF: https://github.com/itext/itextsharp
对于TXT: https://msdn.microsoft.com/en-us/library/ms143368(v=vs.110).aspx