我对网络抓取,scrapy和python相当新。我试图从这个website page中抓取数据。
我想提取页面页脚中给出的电子邮件ID:info@bikramyogasg.com并尝试使用两个xpath在scrapy spider中提取它:
我尝试过这些带有和没有' text()'的最后一个组件的xpath。这些都没有起作用,蜘蛛返回一个空列表。
但是,当我使用xpath检查器检查这些时,我得到了正确的值。无法弄清楚这里出了什么问题。有人可以帮忙吗?
谢谢, Tuhina
答案 0 :(得分:2)
如果您解析网站并查看内容,则会看到来自网站的消息:
This e-mail address is being protected from spambots. You need JavaScript enabled to view it.
因此,您需要执行JavaScript才能访问电子邮件地址。 或者,您可以从本文上方的JavaScript中提取电子邮件地址并进行相应的转换 - 甚至不执行任何JavaScript。