我有这个HTML页面:
<html>
<head></head>
<body>
Some Text
<a href="aLink">
Other Text
</a>
<a href="aLink2.html">
Another Text
</a>
</body>
</html>
我有兴趣捕获文件中的3个文本。通过这样做,我得到输出两个链接的文本:
from lxml import html
from lxml import etree
import requests
page = requests.get('myUrl')
tree = html.fromstring(page.text)
aLink = tree.xpath('//a')
for link in aLink:
print link.text #it works
但是我无法从正文部分获取文本,因为以下代码不起作用:
body = tree.xpath('//body')
print body.text
我该怎么办?谢谢你的回答