使用C#读取文件内容

时间:2009-04-22 01:37:29

标签: c# file

我想使用C#阅读以下文件类型的内容:

  1. RTF
  2. PDF
  3. HTML
  4. MS Word
  5. .Net中是否有用于读取所有文件类型内容的通用API?

3 个答案:

答案 0 :(得分:2)

没有内置支持来阅读大多数这些文件类型。 HTML是纯文本,因此您可以使用System.IO/StreamReader来读取它,但您必须自己解析它。

有第三方组件会读取这些文件类型,但我不确定是否有一个包含所有组件。

对于PDF,我相信iTextSharp允许您阅读。

对于RTF / Word,您可以使用Primary Interop Assemblies

答案 1 :(得分:1)

我使用Aspose之前它是一个功能非常强大的产品,价格相当昂贵,所以只有在你的应用程序还需要创建新的word / pdf / rtf文档时才会推荐它。

我同意其他关于仅使用System.IO读取HTML文件的评论。

答案 2 :(得分:0)

如果要对数据进行全文索引,请查看使用Lucene,它可以处理这些文件类型。