在.NET中读取文档

时间:2010-12-04 18:37:56

标签: c# text document .doc

我可以使用Microsoft Word本身支持的Word互操作打开任何文件格式吗?

我的任务看起来很简单,我需要从常用的任何类型的文档中读取文本,只读取文本(根据内容比较文档)。有没有办法比上面提到的Word Iterop更容易做到这一点?是否有任何免费库来执行此操作?或者打开任何(。doc,.docx,.pdf,.rtf,openoffice docs等)文档类型?我正忙着寻找,但还没有找到太多的解决方案,而且我无法负担研究所有格式的800页规格。

P.S。:单独处理pdf是可以的,并且拥有所有类型的库。

2 个答案:

答案 0 :(得分:2)

答案 1 :(得分:0)

我正在开发一个名为Toxy的新框架。它的目标是从各种文档中提取数据/文本,就像你提到的那样。第一个版本将于明年初发布。(可能是2月)你可以在这里找到一些实现:https://github.com/tonyqus/toxy。但现在还没准备好。