从python中的文本文件中检索特定html标记之间的文本

时间:2019-01-18 16:01:23

标签: python python-3.x

我浏览了这个论坛中人们早先问过的这个查询。但是我找不到我的解决方案。因此,对于类似的问题,我深表歉意。

我的问题是:

我有一个文本文件,其中包含HTML标记和文本。我想在特定的HTML标签之间检索文本。
从HTML标签检索文本后,我想用一个常量字符串替换该文本。

例如,

"<span class="proflinkWrapper"><span class="proflinkPrefix">+</span><a class="proflink" href="https://xyzlink" id=123456">Donald</a></span>"

我希望结果为+ Donald,然后替换为“ President”

我需要查找并替换整个文件中此特定标签之间的文本。这些标记之间的文本不相同,但希望将每个文本替换为“ President”

1 个答案:

答案 0 :(得分:0)

您可以使用网络抓取python包,例如 BeautifulSoup

from bs4 import BeautifulSoup
str = '<span class="proflinkWrapper"><span class="proflinkPrefix">+</span><a class="proflink" href="https://xyzlink" id="123456">Donald</a></span>'
soup = BeautifulSoup(str,'lxml')
try:
    span = soup.find("span",{"class": "proflinkWrapper"}).find("span",{"class": "proflinkPrefix"})
    a = soup.find("a",id="123456")
    a.string = a.text.replace(a.text, "president")
    print (soup.prettify())
except:
    print ("Exception")