我是lxml的新手,想要从给定的网址中提取<p>PARAGRAPHS</p>
和<li>PARAGRAPHS</li>
,并将其用于进一步的步骤。
我按照post中的示例,尝试了以下代码,但没有运气:
html = lxml.html('http://www.google.com/intl/en/about/corporate/index.html')
url = 'http://www.google.com/intl/en/about/corporate/index.html'
print html.parse.xpath('//p/text()')
我尝试查看lxml.html中的示例,但未找到任何使用网址的示例。
你能否给我一些关于我应该使用哪种方法的提示?感谢。
答案 0 :(得分:7)
import lxml.html
htmltree = lxml.html.parse('http://www.google.com/intl/en/about/corporate/index.html')
print htmltree.xpath('//p/text()')