我有一组使用nutch抓取的页面。我知道这个已抓取的网页会保存为细分。我想从这些页面中提取某些键值,并将其作为xml提供给solr。
示例情况是我已经抓取了包含许多产品详情的购物网站。我想提取产品的名称,价格,规格等关键信息,并忽略其余数据。所以我可以提供一些像xml一样的解决方案 qwerty123qwerty 这样使用solr我应该能够根据价格对不同的产品列表进行排序。
现在如何完成这个提取部分?地图会减少到图片中的任何位置吗?
答案 0 :(得分:1)
将原始网页转换为信息并非易事。用于这项工作的一个工具是Boilerpipe。但是,它不会给你一个解决方案。
如果您正在处理固定目标,您可能只需编写自己的过程代码即可找到所需的数据。如果你需要在任意HTML中找到这种东西,那么你就面临着一个非常难的问题,没有现成的解决方案。