如何获取部分HTML代码?

时间:2017-03-14 14:32:12

标签: python python-2.7

我有一个很大的HTML代码,我需要一些标签。

例如,我想打印所有以

开头的标签
< dev ........
....
... 

until < /dev>

因此,起始关键字为" < dev ",结束关键字为< /dev>

我想用python 2.7脚本来打印标签,然后在代码之间直到最后一个单词< /dev>,我就有点卡在那里。

示例:

<div title="buyer-name">test
       <span class="item-price">ff</span> </div>

2 个答案:

答案 0 :(得分:0)

如果您要查找的字符串(“&lt; dev”和“&lt; / dev&gt;”)是唯一的,您可以像这样使用.find()

my_html = "..."
token_1 = "<div"
token_2 = "</div>"
start = my_html.find(token_1)
end   = my_html.find(token_2) + len(token_2) # in order to reach the last char in this closing tag

答案 1 :(得分:0)

您可以使用BeautifulSoup:

from bs4 import BeautifulSoup
html_code = "<html>...</html>"
soup = BeautifulSoup(h)
mydivs = soup.findAll('div')
for div in mydivs:
    print(str(div))