我对LinkExtractor属性(restrict_xpath)做错了吗?不做回调

时间:2019-05-16 17:49:00

标签: python scrapy

我正在测试在网站上设置蜘蛛网的规则,以便输入每个项目的url,从每个项目获取信息,然后进行分页,在这种情况下是无限滚动。 但是首先,我想为Callback创建一条规则,以在每次找到项目时都调用它,但是问题是,它不用于回调。

我也尝试过用最小的表达式来表达allow(),但仍然一无所获。我唯一得到的是是否将allow()和restric_xpaths()都保留为空。

<b>

我希望会印出“大声笑”。

1 个答案:

答案 0 :(得分:1)

这里的主要问题是您正在使用的选择器(//div[@class="row"]仅与具有单个类div的{​​{1}}匹配。 使用XPath表达式来匹配元素包含的类有点棘手:

row

或者您可以改用CSS选择器:

//div[@class and contains(concat(' ', normalize-space(@class), ' '), ' row ')]

编辑:

一些链接: