我正在测试在网站上设置蜘蛛网的规则,以便输入每个项目的url,从每个项目获取信息,然后进行分页,在这种情况下是无限滚动。 但是首先,我想为Callback创建一条规则,以在每次找到项目时都调用它,但是问题是,它不用于回调。
我也尝试过用最小的表达式来表达allow(),但仍然一无所获。我唯一得到的是是否将allow()和restric_xpaths()都保留为空。
<b>
我希望会印出“大声笑”。
答案 0 :(得分:1)
这里的主要问题是您正在使用的选择器(//div[@class="row"]
仅与具有单个类div
的{{1}}匹配。
使用XPath表达式来匹配元素包含的类有点棘手:
row
或者您可以改用CSS选择器:
//div[@class and contains(concat(' ', normalize-space(@class), ' '), ' row ')]
编辑:
一些链接: