例如,HTML中存在一个代码
<p>Example of a paragraph element.</p>
<ul>
<li>Coffee</li>
<li>Tea</li>
<li>Milk</li>
</ul>
需要表示为(如果是Yaml格式)或json也可以
p: Example of a paragraph element.
ul:
li:Coffee
li:Tea
li:Milk
答案 0 :(得分:0)
不确定是否有软件包,但是您可以遍历html中的每个标签,然后使用.name
和.text
进行编程,然后写入文件:
html = '''<p>Example of a paragraph element.</p>
<ul>
<li>Coffee</li>
<li>Tea</li>
<li>Milk</li>
</ul>'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
for tag in soup.find_all():
print (tag.name + ':' + tag.text)
输出:
p:Example of a paragraph element.
ul:
Coffee
Tea
Milk
li:Coffee
li:Tea
li:Milk