如何从python中的anchor href属性中检索文本

时间:2016-06-30 18:51:45

标签: python href

我们说我的链接是这样的:

link = '<a href="some text">...</a>'

有什么方法可以从anchor href属性中检索文本,所以结果会是这样的:

hrefText = 'some text'

提前谢谢你

3 个答案:

答案 0 :(得分:2)

这是一种方式:

import re
print re.search('(?<=<a href=")[^"]+',link).group(0)

或者,

print re.search(r'<a\s+href="([^"]+)',link).group(1)

答案 1 :(得分:2)

虽然您可以拆分或使用正则表达式,但对于更多模块化强大的工具集,您可以使用

  

BeautifulSoup:https://www.crummy.com/software/BeautifulSoup/

示例代码:

from bs4 import BeautifulSoup 
link = '<a href="some text">...</a>'
soup = BeautifulSoup(link, "html.parser")
for anchor in soup.find_all('a', href=True):
    print anchor['href']

或者,对于单个功能,您可以这样做:

from bs4 import BeautifulSoup 

def getHref( link ):
    soup = BeautifulSoup(link, "html.parser")
    return soup.find_all('a', href=True)[0]['href']

答案 2 :(得分:1)

您可以使用bs4并为此请求lib。

SequenceType

希望这会有所帮助:)