我有一些html文档,其中一些包含许多锚标记。嵌套标签的情况也相同。现在,我必须使用python阅读所有文本,包括父页面和所有子页面。
我尝试通过制作锚定标记列表的列表。但这并不能解决我的问题。
示例:
ABC.html具有5个锚标记,分别为[1.html,2.html,3.html,4.html,5.html]。 现在'1.html'还有2个锚标记,例如[_1.html,_2.html],以此类推,其余的html都如此。 我必须使用python阅读ABC.html的所有文本文档,包括其子html。