Question

我正在尝试解析一些网页以供将来使用。为了解析网页，我使用了不同的模块，如urllib，lxml，BeautifulSoup，HTMLParser来实现我的目标。

在解析网页时我没有遇到任何问题，直到我遇到隐藏的标签。

当我使用Chrome浏览器打开页面并使用开发人员工具查看页面元素时，我能够看到代码的<embed>部分：

 <embed type="..." src="..." ID="..." >

只需手动复制/粘贴。

我需要从这个隐藏的标记中解析ID。为什么我可以使用python从站点解析这部分？有什么方法可以解析这些隐藏的部分吗？

我知道在html源代码中看不到像php和asp这样的代码部分是不可能的，但我想情况并非如此。

Answer 1

这个“隐藏”代码可能是由JavaScript在运行时生成的。

您可能会更好地了解JavaScript的工作原理以及获取数据的位置（URL），而不是尝试运行脚本然后解析生成的DOM树...