在Scrapy Shell中使用xpath从网页上的某个<p>
标记中选择电子邮件地址时,xpath将返回该特定段落中的所有<a>
个链接。因此,我试图使用starts-with函数来进一步细化我想要返回的信息,这是成功的但是切断了电子邮件地址的末尾。
hxs.select('//*[@id="rightCol02"]/p/a[starts-with(@href,"mailto")]')
以上返回不完整的电子邮件地址。
在没有启动函数的情况下运行hxs.select时,我观察到以下内容:
hxs.select('//*[@id="xxxxxxx"]/p/a')
- (返回截断了URL和电子邮件地址末尾的所有链接。)
hxs.select('//*[@id="xxxxxxx"]/p/a/@href')
- (返回完整的电子邮件地址和网址。)
问题是如何开始捕获整个电子邮件地址?
我尝试过以下内容但不确定语法应该是什么:
hxs.select('//*[@id="xxxxxxxx"]/p/a/@href[starts-with("mailto:")]')