Question

我正在尝试解析网站

blahblahblah 
<a  href="THIS IS WHAT I WANT" title="NOT THIS">I DONT CARE ABOUT THIS EITHER</a>
blahblahblah

（其中有很多，我希望所有这些都以一种标记化的形式）。不幸的是，HTML非常大而且有点复杂，因此尝试爬下树可能需要一些时间来整理嵌套元素。有没有一种简单的方法来检索它？

谢谢！

Answer 1

如果您只想要a标签的href，请使用：

data = """blahblahblah 
<a  href="THIS IS WHAT I WANT" title="NOT THIS">I DONT CARE ABOUT THIS EITHER</a>
blahblahblah"""

import lxml.html
tree = lxml.html.fromstring(data)
print tree.xpath('//a/@href')

# ['THIS IS WHAT I WANT']

在Python中使用LXML解析HTML

1 个答案: