Lucene .NET Azure Blob存储和IFilter

时间:2011-08-23 11:07:45

标签: azure lucene.net ifilter

使用IFilter从Azure解决方案中的pdf / word /中提取文本内容的最佳方法是什么?

我见过使用流的IFilter的例子,但是流的内容应该是什么? 它应该包含某种OLE头而不包含什么?

将原始文件内容作为流发送到IFilter似乎不起作用。

或者将文件保存到本地文件存储并让IFilter从该位置读取它们会更好吗?

1 个答案:

答案 0 :(得分:1)

在azure中使用ifilter会很棘手,因为桌面上常见的几个ifilter在Azure / worker角色中不可用。

您可以在azure中创建一个持久的VM并安装缺少的ifilter。

但是,如果您要通过webupload构建lucene索引,则可以在上载文件时将文件处理为文本,然后将文本编入索引,并单独保存文件。在索引中添加一个字段,以便您返回原始源文档。

可能是一种更简单的方法,但这就是我解决同样问题的方法。