使用IFilter从Azure解决方案中的pdf / word /中提取文本内容的最佳方法是什么?
我见过使用流的IFilter的例子,但是流的内容应该是什么? 它应该包含某种OLE头而不包含什么?
将原始文件内容作为流发送到IFilter似乎不起作用。
或者将文件保存到本地文件存储并让IFilter从该位置读取它们会更好吗?
答案 0 :(得分:1)
在azure中使用ifilter会很棘手,因为桌面上常见的几个ifilter在Azure / worker角色中不可用。
您可以在azure中创建一个持久的VM并安装缺少的ifilter。
但是,如果您要通过webupload构建lucene索引,则可以在上载文件时将文件处理为文本,然后将文本编入索引,并单独保存文件。在索引中添加一个字段,以便您返回原始源文档。
可能是一种更简单的方法,但这就是我解决同样问题的方法。