我正在使用scrapy(网络抓取框架)。有什么方法可以在网页中获取某个元素的xpath(包含“sometext”),这样我就可以提取具有相似xpath的元素了吗?我不希望我的xpath被硬编码,因为我将抓取多个网站。
我刚接触scrapy,我一直在寻找几天,但我找不到任何东西:(
答案 0 :(得分:1)
您必须明确指定要使用xpath
或regular expression
或某些库beautifulsoup
来抓取哪个元素。未明确指定xpath
的一种方法是遍历DOM
并提取所需的元素。但即使在这种情况下,您也需要某种机制来识别您想要刮去的元素。你也应该写不同的蜘蛛来刮不同的网站。使用单个蜘蛛刮痧多个网站会使您的任务变得更加艰难,也不是一个好习惯。
要部署和运行蜘蛛,您可以查看scrapyd