使用c#从文档中获取纯文本

时间:2010-11-23 18:20:35

标签: c# readfile

如何从文档中获取纯字符串,消除所有图像或表格或图形。我将操纵并创建这些文档的单词列表。所以我只需要使用C#

文本部分文档

2 个答案:

答案 0 :(得分:1)

您可能需要查看IFilters。它们是大多数搜索索引器从Windows上的文档访问纯文本的方式。 Here's a tutorial and sample project包含可用于从Office文档和PDF等中提取文本的源代码。

您只需确保在计算机上安装了正确的IFilter。 Microsoft提供a free set of filters for Office DocumentsAdobe还提供了一个过滤器,但它完全是垃圾。如果可以的话,试试FoxIt IFilter,它会好得多。

答案 1 :(得分:0)

您必须支持每个文档的特定格式;没有读取所有文档格式的通用方法 例如,Microsoft Office Word文档文件需要由其自己的库进行解释,而不是OpenOffice文档文件。