是否有任何python包可以将显示的HTML结构基本上转换为JSON / YAML格式

时间:2019-04-26 11:14:53

标签: python html beautifulsoup html-parsing

例如,HTML中存在一个代码

<p>Example of a paragraph element.</p> 
<ul>
  <li>Coffee</li>
  <li>Tea</li>
  <li>Milk</li>
</ul>

需要表示为(如果是Yaml格式)或json也可以

p: Example of a paragraph element.
ul:
   li:Coffee
   li:Tea
   li:Milk

1 个答案:

答案 0 :(得分:0)

不确定是否有软件包,但是您可以遍历html中的每个标签,然后使用.name.text进行编程,然后写入文件:

html = '''<p>Example of a paragraph element.</p> 
<ul>
  <li>Coffee</li>
  <li>Tea</li>
  <li>Milk</li>
</ul>'''


from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'html.parser')

for tag in soup.find_all():
    print (tag.name + ':' + tag.text)

输出:

p:Example of a paragraph element.
ul:
Coffee
Tea
Milk

li:Coffee
li:Tea
li:Milk