我正在尝试使用Python中的lxml模块从以下页面中抓取数据:http://www.thehindu.com/todays-paper/with-afspa-india-has-failed-statute-amnesty/article7376286.ece。我想在第一段中获取文本,但以下代码返回空值
from lxml import html
import requests
page = requests.get('http://www.thehindu.com/todays-paper/with-afspa-india-has-failed-statute-amnesty/article7376286.ece')
tree = html.fromstring(page.text)
data = tree.xpath('//*[@id="left-column"]/div[6]/p[1]/text()')
print data
我不明白我在这里做错了什么。请建议是否有更好的方法来做我想做的事情。
答案 0 :(得分:0)
尝试//div[class='article-text']/p/text()
答案 1 :(得分:0)
你可以使用xpath如下:
div[@class='article-text']/p[1]/text()