我从urllib2收到的html缺少我在Firefox中查看URL源时可以看到的数十个数据字段。任何建议将不胜感激。这是它的样子:
来自FireFox查看源:
# ...<td class=td6>as</td></tr></thead>|ManyFields|<br></div><div id="c1">...
来自urllib2的返回html:
# ...<td class=td6>as</td></tr></thead>|</table>|<br></div><div id="c1">...
答案 0 :(得分:2)
从粗略检查看来,您获得的网页有一个很多的Javascript;也许Javascript合作构建你在Firefox中看到的信息(至少其中一些是积极改变页面的内容)。如果您需要抓取富含JS的页面,最好的办法是通过Selenium自动化实际的浏览器。
答案 1 :(得分:0)
您看到的额外内容是由JavaScript生成的。它不是原始HTML文档的一部分,因此不会出现普通的HTTP提取器,如urllib2。