如何使用python读取html中的嵌套锚标记的文本

时间:2018-11-09 10:44:36

标签: html python-3.x text-mining

我有一些html文档,其中一些包含许多锚标记。嵌套标签的情况也相同。现在,我必须使用python阅读所有文本,包括父页面和所有子页面。

我尝试通过制作锚定标记列表的列表。但这并不能解决我的问题。

示例:

ABC.html具有5个锚标记,分别为[1.html,2.html,3.html,4.html,5.html]。 现在'1.html'还有2个锚标记,例如[_1.html,_2.html],以此类推,其余的html都如此。 我必须使用python阅读ABC.html的所有文本文档,包括其子html。

0 个答案:

没有答案