如何使用Portia / Scrapy Spider从一个页面中提取多个项目

时间:2014-09-24 09:43:57

标签: scrapy web-crawler portia

我有一个我想要抓取的网站。它包含我希望在每个页面上提取的多个项目。

它非常类似于在线黄页。它包含每个项目的标题,电话号码和类别......因为这显然不足以将整个页面呈现给自己,所以这些项目都在列表中。有些页面包含3个项目,其他页面包含10个左右。

- 编辑1-- 我已经成功地抓住了许多网站,但他们都可以进入只包含一个项目的页面。这在这里是不可能的,并且由于需要不同的模板,它将多个项目作为一个项目返回,或者只是随机分成一个部分。

1 个答案:

答案 0 :(得分:0)

Portia尚不支持每页提取多个项目。有一个issue for it,有足够的兴趣很快就会完成。

与此同时,一个技巧是将项目嵌套在父项目中(使用“变体”),然后在后处理步骤中将它们拆分为单独的项目。