Question

我从urllib2收到的html缺少我在Firefox中查看URL源时可以看到的数十个数据字段。任何建议将不胜感激。这是它的样子：

来自FireFox查看源：

# ...<td class=td6>as</td></tr></thead>|ManyFields|<br></div><div id="c1">...

来自urllib2的

返回html：

# ...<td class=td6>as</td></tr></thead>|</table>|<br></div><div id="c1">...

Answer 1

从粗略检查看来，您获得的网页有一个很多的Javascript;也许Javascript合作构建你在Firefox中看到的信息（至少其中一些是积极改变页面的内容）。如果您需要抓取富含JS的页面，最好的办法是通过Selenium自动化实际的浏览器。

Answer 2

您看到的额外内容是由JavaScript生成的。它不是原始HTML文档的一部分，因此不会出现普通的HTTP提取器，如urllib2。