应用错误收集

来自不同文件类型的文本提取库，PDF，DOC，DOCX，TXT c＃

时间：2016-07-03 00:48:31

标签： c# text information-retrieval

我正在构建信息检索系统，以多种文件格式搜索文本，我尝试过 EPocalipse IFilter Lirary，但在尝试阅读 docx 文件时遇到异常，我尝试了 Toxy 库，但它是< strong> doc 阿拉伯语文件，最后我尝试了 TikaOnDotNet Libray但它需要java才能工作，我需要将系统置于主机上，而不是在服务器上安装java

2 个答案:

答案 0 :(得分：2)

能够从任何类型的文件中提取所有文本数据的库是{{3}}。它甚至可以从非文本文件（如图像和视频文件）中提取元数据（如果有）。示例用例显示为Apache Tika library。

答案 1 :(得分：1)

使用这些库怎么样：

对于DOC / DOCX： http://www.dotnetperls.com/word

对于PDF： https://github.com/itext/itextsharp

对于TXT： https://msdn.microsoft.com/en-us/library/ms143368(v=vs.110).aspx

使用vb.net将.doc，.docx，.txt转换为pdf
图书馆在C ++上阅读ms-office Doc（doc，docx等），pdf，hwp，...
从pdf，docx和doc打印文本
来自不同文件类型的文本提取库，PDF，DOC，DOCX，TXT c＃
从localhost显示pdf / doc / docx
从C＃到网络打印机打印doc，docx，pdf，rtf和txt文件
Python Doc库/从doc文件中提取文本
使用Python从Resumes（.Docx，.Doc，PDF）中提取粗体文本
如何在文件对话框中仅排除文件类型.doc，.docx，.txt和.rtf文件类型
从.docx / .doc文件中提取突出显示的文本

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？