为什么urllib2缺少我在Firefox源代码中可以看到的表字段?

时间:2009-10-07 02:45:33

标签: python html field urllib2

我从urllib2收到的html缺少我在Firefox中查看URL源时可以看到的数十个数据字段。任何建议将不胜感激。这是它的样子:

来自FireFox查看源:

# ...<td class=td6>as</td></tr></thead>|ManyFields|<br></div><div id="c1">...
来自urllib2的

返回html:

# ...<td class=td6>as</td></tr></thead>|</table>|<br></div><div id="c1">...

2 个答案:

答案 0 :(得分:2)

从粗略检查看来,您获得的网页有一个很多的Javascript;也许Javascript合作构建你在Firefox中看到的信息(至少其中一些是积极改变页面的内容)。如果您需要抓取富含JS的页面,最好的办法是通过Selenium自动化实际的浏览器。

答案 1 :(得分:0)

您看到的额外内容是由JavaScript生成的。它不是原始HTML文档的一部分,因此不会出现普通的HTTP提取器,如urllib2。