应用错误收集

使用Nutch获取特定的HTML标签

时间：2011-12-28 06:37:17

标签： html parsing html-parsing nutch

我会很清楚地指出问题，所以请耐心等待:)。

假设我有以下基本网址：http://www.amazon.com/gp/goldbox/all-deals?ie=UTF8&type=bd
其中列出了许多具有简明描述的产品。每个列出的产品都有一个指向详细信息产品信息页面的URL，例如：http://www.amazon.com/dp/B000WU7RGS/ref=xs_gb_all-deals_center_rw_uk_A34K0C99MV3O0U?pf_rd_p=1261804642&pf_rd_s=center-2&pf_rd_t=701&pf_rd_i=30&pf_rd_m=ATVPDKIKX0DER&pf_rd_r=1FE5R5X5XYMG6GDPHPK5

现在我的要求是（例如）获取每种产品的名称，价格和产品信息。如何使用Nutch实现这一目标？ Nutch是否需要/这是一个很好的选择，还是只是一个简单的简单wget +自己的HTML解析器是一个更好的方法？

注意：我必须对布局非常不同的多个页面执行此操作，并且只输入URL和从URL中提取的html标记

1 个答案:

答案 0 :(得分：0)

处理同样的问题。然而，似乎有一些累人的步骤来实现目标：

1-crawl 2-index 3 - 通过-readseg获取原始html 4解析文件以获取所需信息

所以， Nutch 似乎不是这样做的好方法。你有没有找到答案？