使用Nutch获取特定的HTML标签

时间:2011-12-28 06:37:17

标签: html parsing html-parsing nutch

我会很清楚地指出问题,所以请耐心等待:)。

假设我有以下基本网址:http://www.amazon.com/gp/goldbox/all-deals?ie=UTF8&type=bd
其中列出了许多具有简明描述的产品。每个列出的产品都有一个指向详细信息产品信息页面的URL,例如:http://www.amazon.com/dp/B000WU7RGS/ref=xs_gb_all-deals_center_rw_uk_A34K0C99MV3O0U?pf_rd_p=1261804642&pf_rd_s=center-2&pf_rd_t=701&pf_rd_i=30&pf_rd_m=ATVPDKIKX0DER&pf_rd_r=1FE5R5X5XYMG6GDPHPK5

现在我的要求是(例如)获取每种产品的名称,价格和产品信息。如何使用Nutch实现这一目标? Nutch是否需要/这是一个很好的选择,还是只是一个简单的简单wget +自己的HTML解析器是一个更好的方法?

注意:我必须对布局非常不同的多个页面执行此操作,并且只输入URL和从URL中提取的html标记

1 个答案:

答案 0 :(得分:0)

处理同样的问题。然而,似乎有一些累人的步骤来实现目标:

1-crawl 2-index 3 - 通过-readseg获取原始html 4解析文件以获取所需信息

所以, Nutch 似乎不是这样做的好方法。你有没有找到答案?