我有很多HTML响应代码,在某些方面还有这部分:
</td>
</tr>
<input id="hiddenloginurl" type="hidden" name="loginurl" value="/sensor.htm?id=10240">
</table>
如何解析html代码并使用python获取此id?问题是,在每次新的api调用时,id都会被更改。
答案 0 :(得分:0)
Beautiful Soup提供了一些简单的方法和Pythonic习语,用于导航,搜索和修改解析树:一个工具包 剖析文档并提取您需要的内容。它不需要 编写应用程序的代码很多
Beautiful Soup会自动将传入的文档转换为Unicode 和传出的文件到UTF-8。你不必考虑 编码,除非文档没有指定编码和 美丽的汤不能自动检测一个。然后你只需要指定 原始编码。
Beautiful Soup位于流行的Python解析器之上,如lxml和 html5lib,允许您尝试不同的解析策略或 贸易速度的灵活性。
另请参阅此类似问题:Extracting an attribute value with beautifulsoup
inputTag = soup.find(attrs={"name": "stainfo"})
output = inputTag['value']