使用lxml从HTML解析段落

时间:2011-10-16 15:58:50

标签: python lxml

我是lxml的新手,想要从给定的网址中提取<p>PARAGRAPHS</p><li>PARAGRAPHS</li>,并将其用于进一步的步骤。

我按照post中的示例,尝试了以下代码,但没有运气:

html = lxml.html('http://www.google.com/intl/en/about/corporate/index.html')
url = 'http://www.google.com/intl/en/about/corporate/index.html'
print html.parse.xpath('//p/text()')

我尝试查看lxml.html中的示例,但未找到任何使用网址的示例。

你能否给我一些关于我应该使用哪种方法的提示?感谢。

1 个答案:

答案 0 :(得分:7)

import lxml.html

htmltree = lxml.html.parse('http://www.google.com/intl/en/about/corporate/index.html')

print htmltree.xpath('//p/text()')