在包含“sometext”的网页中获取链接的xpath

时间:2016-01-16 07:58:30

标签: python xpath scrapy

我正在使用scrapy(网络抓取框架)。有什么方法可以在网页中获取某个元素的xpath(包含“sometext”),这样我就可以提取具有相似xpath的元素了吗?我不希望我的xpath被硬编码,因为我将抓取多个网站。

我刚接触scrapy,我一直在寻找几天,但我找不到任何东西:(

1 个答案:

答案 0 :(得分:1)

您必须明确指定要使用xpathregular expression或某些库beautifulsoup来抓取哪个元素。未明确指定xpath的一种方法是遍历DOM并提取所需的元素。但即使在这种情况下,您也需要某种机制来识别您想要刮去的元素。你也应该写不同的蜘蛛来刮不同的网站。使用单个蜘蛛刮痧多个网站会使您的任务变得更加艰难,也不是一个好习惯。

要部署和运行蜘蛛,您可以查看scrapyd