已爬网的html与浏览器中的html不同

时间:2014-09-23 14:11:44

标签: web-crawler

我使用web收获来获取HTML,但我发现我获得的HTML与浏览器中的略有不同。 html中的几个数字在HTML抓取的HTML中用短划线(-)替换。

HTML的所有其他内容都是相同的。即使我用Java代码替换了web收获的http语句来请求HTML,但仍然没有用。

我保证浏览器中的网址和网络收获中的http请求相同。我怎样才能做到这一点?

1 个答案:

答案 0 :(得分:0)

此问题非常普遍,通常与CSS相关的内容存在问题。主要原因是 1.元素不同于Web源代码,这是最常见的现象。元素的代码已由JS渲染。不同是正常的。您可以检查Google主页的元素和源代码,如下所示,它们显然有所不同。Elements View-Source这应该以网页源代码为标准。 2.异步问题。 3.如果网页的源代码与爬虫的源代码不同,则可能是由于反爬虫