应用错误收集

使用SOLR索引HTML文件

时间：2013-02-22 07:55:07

标签： solr lucene indexing

尝试使用SOLR索引一组HTML文件。基本思想是为开发的网站实现网站搜索功能。对于Lucene和SOLR来说，这是一个非常新的东西，并尝试了网站上的一些样本，并使用它们索引了一些文档。但是我无法得出关于最佳做事方式的结论。有人建议使用DataImportHandler，我看到一些使用ExtractingRequestHandler的地方。我这边的一个简单尝试就是使用ExtractingRequestHandler。 lso我将不得不更新文件列表，例如，将来可能会删除一些HTML，有些可能会被添加等等.P1建议选择方法时要考虑的因素

干杯!!

1 个答案:

答案 0 :(得分：0)

我建议您使用Nutch抓取HTML文件并将其编入索引。它内置支持跟踪文件的删除/添加。

另请查看Nutch Wiki有关入门的教程。

Solr可以索引/搜索静态文件吗？
Solr：发布的文件数不等于maxDoc
使用SOLR索引HTML文件
使用Solr索引日志文件
使用curl和SOLR索引文件
如何使用Solr将文件发送到HDFS
Indexing in Apche Solr of all files contained in a folder and its subfolders
如何使用solr索引单个目录中包含的大量文件？
如何将.PDF文件的内容导入Solr索引？
在Solr中索引纯文本文件

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？