使用lxml解析使用python的Html

时间:2014-12-05 14:20:46

标签: python html-parsing lxml

我有这个HTML页面:

<html>
    <head></head>
    <body>
        Some Text
        <a href="aLink">
            Other Text
        </a>
        <a href="aLink2.html">
            Another Text
        </a>
    </body>
</html>

我有兴趣捕获文件中的3个文本。通过这样做,我得到输出两个链接的文本:

     from lxml import html
     from lxml import etree
     import requests 

     page = requests.get('myUrl')
     tree = html.fromstring(page.text)
     aLink = tree.xpath('//a')
     for link in aLink:
         print link.text #it works

但是我无法从正文部分获取文本,因为以下代码不起作用:

     body = tree.xpath('//body')
     print body.text

我该怎么办?谢谢你的回答

0 个答案:

没有答案