应用错误收集

时间：2012-03-06 14:14:01

标签： solr lucene mapreduce nutch

我有一组使用nutch抓取的页面。我知道这个已抓取的网页会保存为细分。我想从这些页面中提取某些键值，并将其作为xml提供给solr。

示例情况是我已经抓取了包含许多产品详情的购物网站。我想提取产品的名称，价格，规格等关键信息，并忽略其余数据。所以我可以提供一些像xml一样的解决方案 qwerty123qwerty 这样使用solr我应该能够根据价格对不同的产品列表进行排序。

现在如何完成这个提取部分？地图会减少到图片中的任何位置吗？

答案 0 :(得分：1)

将原始网页转换为信息并非易事。用于这项工作的一个工具是Boilerpipe。但是，它不会给你一个解决方案。

如果您正在处理固定目标，您可能只需编写自己的过程代码即可找到所需的数据。如果你需要在任意HTML中找到这种东西，那么你就面临着一个非常难的问题，没有现成的解决方案。