如何在python中使用lxml遍历所有标记的所有子项以获取数据?

时间:2015-09-05 08:13:25

标签: python lxml

我想遍历html页面中的所有子节点。 例如<body>......</body>将有许多子标签我想以递归方式遍历所有这些标签,以便没有任何标签保持未被访问。然后我想从每个标签中获取文本。 我正在寻找一个通用的解决方案,适用于任何可能具有任何结构的网页。有人可以这样说吗? 谢谢

1 个答案:

答案 0 :(得分:0)

是的,python beautiful soap 是一个很棒的python库,有许多功能可以做到这一点。