如何用红宝石/海葵/ nokogiri从现场刮取产品

时间:2012-05-20 07:02:10

标签: ruby nokogiri scraper anemone

是否可以使用红宝石中的海葵和nokogiri图书馆从电子商务网站中删除产品?

我理解如何使用nokogiri从每个产品页面中提取我需要的数据,但我无法弄清楚如何让海葵/ nokogiri抓取网站并抓住所有产品页面。

非常感谢正确推动

1 个答案:

答案 0 :(得分:0)

我想出了我的问题。首先是海葵似乎没有抓到所有页面。这是因为我想要的页面属于一个子域,我不得不告诉海葵与主域分开爬行。其次,我需要一种方法来确定哪些页面实际上是产品页面(因此需要进行解析)。我通过解析我想要的一个字段(sku编号)然后测试它是否是带有RegEX的sku来做到这一点。