Question

我正在尝试使用Python中的lxml模块从以下页面中抓取数据：http://www.thehindu.com/todays-paper/with-afspa-india-has-failed-statute-amnesty/article7376286.ece。我想在第一段中获取文本，但以下代码返回空值

from lxml import html
import requests

page = requests.get('http://www.thehindu.com/todays-paper/with-afspa-india-has-failed-statute-amnesty/article7376286.ece')
tree = html.fromstring(page.text)
data = tree.xpath('//*[@id="left-column"]/div[6]/p[1]/text()')
print data

我不明白我在这里做错了什么。请建议是否有更好的方法来做我想做的事情。

Answer 1

尝试//div[class='article-text']/p/text()

Answer 2

你可以使用xpath如下：

div[@class='article-text']/p[1]/text()

Python xpath查询不返回文本值

2 个答案: