来自不同文件类型的文本提取库,PDF,DOC,DOCX,TXT c#

时间:2016-07-03 00:48:31

标签: c# text information-retrieval

我正在构建信息检索系统,以多种文件格式搜索文本, 我尝试过 EPocalipse IFilter Lirary,但在尝试阅读 docx 文件时遇到异常,我尝试了 Toxy 库,但它是< strong> doc 阿拉伯语文件,最后我尝试了 TikaOnDotNet Libray但它需要java才能工作,我需要将系统置于主机上,而不是在服务器上安装java

2 个答案:

答案 0 :(得分:2)

能够从任何类型的文件中提取所有文本数据的库是{​​{3}}。它甚至可以从非文本文件(如图像和视频文件)中提取元数据(如果有)。示例用例显示为Apache Tika library

答案 1 :(得分:1)