请原谅我缺乏知识,但是按照以下格式提供HTML,提取单个数据字段的最佳方法是什么?请记住,通常情况下,它们中的一些或全部将为NULL,在这种情况下,我们将它们保持为NULL。
<div class="profile-section" id="a-bit-more-about">
<dl>
<dt>Name:</dt>
<dd><span class="given-name">Clem</span> <span class="family-name">Kadiddlehopper</span></dd>
</dl>
<!-- <span class="RealName">/ <span class="fn n"><span class="given-name">Clem</span> <span class="family-name">Kadiddlehopper</span></span></span> -->
<dl>
<dt>Joined:</dt>
<dd>September 1910</dd>
</dl>
<div class="sep"></div>
<dl>
<dt>Hometown:</dt>
<dd>Quiet Rest Maximum Security Twilight Home</dd>
</dl>
<dl>
<dt>Currently:</dt>
<dd><span class="adr"><span class="locality">They won't tell me</span>, <span class="country-name">Zimbobwe</span></span></dd>
</dl>
<div class="sep"></div>
答案 0 :(得分:3)
你想要一个HTML解析器。我建议beautiful soup或lxml.
答案 1 :(得分:2)
使用第三方模块美丽的汤,lxml或内置模块html.parser。例如:
from bs4 import BeautifulSoup
soup = BeautifulSoup('<html><body><a>bbb</a></body></html')
soup.find('a')
或者如果喜欢,你可以将正则表达式用于小目标。