应用错误收集

时间：2011-08-23 11:07:45

标签： azure lucene.net ifilter

使用IFilter从Azure解决方案中的pdf / word /中提取文本内容的最佳方法是什么？

我见过使用流的IFilter的例子，但是流的内容应该是什么？它应该包含某种OLE头而不包含什么？

将原始文件内容作为流发送到IFilter似乎不起作用。

或者将文件保存到本地文件存储并让IFilter从该位置读取它们会更好吗？

答案 0 :(得分：1)

在azure中使用ifilter会很棘手，因为桌面上常见的几个ifilter在Azure / worker角色中不可用。

您可以在azure中创建一个持久的VM并安装缺少的ifilter。

但是，如果您要通过webupload构建lucene索引，则可以在上载文件时将文件处理为文本，然后将文本编入索引，并单独保存文件。在索引中添加一个字段，以便您返回原始源文档。

可能是一种更简单的方法，但这就是我解决同样问题的方法。