我正在尝试解析一些网页以供将来使用。为了解析网页,我使用了不同的模块,如urllib,lxml,BeautifulSoup,HTMLParser来实现我的目标。
在解析网页时我没有遇到任何问题,直到我遇到隐藏的标签。
当我使用Chrome浏览器打开页面并使用开发人员工具查看页面元素时,我能够看到代码的<embed>
部分:
<embed type="..." src="..." ID="..." >
只需手动复制/粘贴。
我需要从这个隐藏的标记中解析ID
。为什么我可以使用python从站点解析这部分?有什么方法可以解析这些隐藏的部分吗?
我知道在html源代码中看不到像php和asp这样的代码部分是不可能的,但我想情况并非如此。
答案 0 :(得分:1)
这个“隐藏”代码可能是由JavaScript在运行时生成的。
您可能会更好地了解JavaScript的工作原理以及获取数据的位置(URL),而不是尝试运行脚本然后解析生成的DOM树...