Question

我是lxml的新手，想要从给定的网址中提取<p>PARAGRAPHS</p>和<li>PARAGRAPHS</li>，并将其用于进一步的步骤。

我按照post中的示例，尝试了以下代码，但没有运气：

html = lxml.html('http://www.google.com/intl/en/about/corporate/index.html')
url = 'http://www.google.com/intl/en/about/corporate/index.html'
print html.parse.xpath('//p/text()')

我尝试查看lxml.html中的示例，但未找到任何使用网址的示例。

你能否给我一些关于我应该使用哪种方法的提示？感谢。

Answer 1

import lxml.html

htmltree = lxml.html.parse('http://www.google.com/intl/en/about/corporate/index.html')

print htmltree.xpath('//p/text()')

使用lxml从HTML解析段落

1 个答案: