应用错误收集

在包含“sometext”的网页中获取链接的xpath

时间：2016-01-16 07:58:30

标签： python xpath scrapy

我正在使用scrapy（网络抓取框架）。有什么方法可以在网页中获取某个元素的xpath（包含“sometext”），这样我就可以提取具有相似xpath的元素了吗？我不希望我的xpath被硬编码，因为我将抓取多个网站。

我刚接触scrapy，我一直在寻找几天，但我找不到任何东西:(

1 个答案:

答案 0 :(得分：1)

您必须明确指定要使用xpath或regular expression或某些库beautifulsoup来抓取哪个元素。未明确指定xpath的一种方法是遍历DOM并提取所需的元素。但即使在这种情况下，您也需要某种机制来识别您想要刮去的元素。你也应该写不同的蜘蛛来刮不同的网站。使用单个蜘蛛刮痧多个网站会使您的任务变得更加艰难，也不是一个好习惯。

要部署和运行蜘蛛，您可以查看scrapyd

Xpath谓词匹配<！ - [CDATA [sometext]] - >
webdriver单击网页中的链接
包含粗体文本的文本的Xpath
正则表达式 - 在字符串中获取@ [SomeText]的匹配项
Selenium PHP获取链接标记的网址
在包含“sometext”的网页中获取链接的xpath
python selenium find元素包含sometext的属性
XPATH：获取包含此行的String和goto链接的行
从包含另一个组件的组件获取href

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？