我在磁盘上本地存储了大约1000个页面,其中包含类似于以下示例的内容。
<html>
<body>
<li>User Dave<sup><a href="" title="" onClick="" class="">?</a></sup></li>
<li>UserID<sup><a href="" title="" onClick="" class="">?</a></sup>: 00000001</li>
</body>
</html>
我需要帮助搞清楚如何从第3行提取字符串Dave并将其加载到UserName列表中。 另外,我需要从第四行中提取00000001并将其加载到UserID列表中。
请帮助,谢谢...
答案 0 :(得分:1)
查看html.parser模块(http://docs.python.org/py3k/library/html.parser.html#module-html.parser)。
答案 1 :(得分:0)
您可以使用MiniDom解析XHTML / XML:
或者,Python有一个内置的HTMLParser: