ASP.NET库从Open XML文件格式中提取纯文本

时间:2010-05-06 03:37:59

标签: asp.net lucene.net openxml

是否有预先存在的库来提取纯文本格式的Open XML文件格式(例如docx,pptx和xlsx)文件?

我要求填充lucene.net索引。

我发现了这个example which extracts text from docx,似乎工作正常。但在基于此构建我自己的解决方案之前,我想知道其他文件格式是否已有可用的东西?

3 个答案:

答案 0 :(得分:1)

在花钱之前,可能值得查看IFilter界面 - 这些界面/设计完全符合您的要求。

http://msdn.microsoft.com/en-us/library/ms691105

http://www.codeproject.com/KB/cs/IFilter.aspx

(codeprject链接底部的一些链接)。

MS为办公室文件类型提供IFilter。 http://www.microsoft.com/downloads/details.aspx?familyid=60c92a37-719c-4077-b5c6-cac34f4227cc&displaylang=en

我知道我们使用这项技术允许我们使用Lucene索引PDF,但我没有编写实际的代码,恐怕没什么用处。

如果你的Google强大,我相信你可以挖掘出更多使用IFilter来做你想做的事情的例子。

答案 1 :(得分:0)

观看aspose.com,他们有一个很好的库来处理ppt和pptx。

答案 2 :(得分:0)

您可以尝试Toxy,一个用于.NET的开源文本/数据提取框架。目前,它支持xls,xlsx,doc,docx。它很快就会在1.5版本中支持pptx。

有关详细信息,您可以查看here