我有一个很大的HTML代码,我需要一些标签。
例如,我想打印所有以
开头的标签< dev ........
....
...
until < /dev>
因此,起始关键字为" < dev "
,结束关键字为< /dev>
。
我想用python 2.7脚本来打印标签,然后在代码之间直到最后一个单词< /dev>
,我就有点卡在那里。
示例:
<div title="buyer-name">test
<span class="item-price">ff</span> </div>
答案 0 :(得分:0)
如果您要查找的字符串(“&lt; dev”和“&lt; / dev&gt;”)是唯一的,您可以像这样使用.find()
:
my_html = "..."
token_1 = "<div"
token_2 = "</div>"
start = my_html.find(token_1)
end = my_html.find(token_2) + len(token_2) # in order to reach the last char in this closing tag
答案 1 :(得分:0)
您可以使用BeautifulSoup:
from bs4 import BeautifulSoup
html_code = "<html>...</html>"
soup = BeautifulSoup(h)
mydivs = soup.findAll('div')
for div in mydivs:
print(str(div))