我正在使用Java和Selenium Library来抓取一个网页。当我在Firefox的页面上使用Firebug时,我可以看到该页面的源代码包含以下HTML结构:
<div>
<div>
<table>
<caption />
<thead />
<tbody />
</table>
</div>
</div>
但是,当我使用HtmlUnitDriver以编程方式下载页面的源代码时,请使用driver.getPageSource(),我看到相应的HTML结构已更改为:
<div>
<table>
<caption />
<tbody />
</table>
</div>
答案 0 :(得分:1)
请注意,Firebug不会以这种方式调整HTML结构,即集成的开发人员工具应该显示相同的内容。
我假设第二个包装<div>
和<thead>
被页面上运行的某些JavaScript添加。
您可以通过停用JavaScript来检查,例如转到about:config
并将javascript.enabled
设置为false
或通过NoScript或Ghostery等附加组件。