我使用web收获来获取HTML,但我发现我获得的HTML与浏览器中的略有不同。 html中的几个数字在HTML抓取的HTML中用短划线(-
)替换。
HTML的所有其他内容都是相同的。即使我用Java代码替换了web收获的http语句来请求HTML,但仍然没有用。
我保证浏览器中的网址和网络收获中的http请求相同。我怎样才能做到这一点?
答案 0 :(得分:0)
此问题非常普遍,通常与CSS相关的内容存在问题。主要原因是 1.元素不同于Web源代码,这是最常见的现象。元素的代码已由JS渲染。不同是正常的。您可以检查Google主页的元素和源代码,如下所示,它们显然有所不同。Elements View-Source这应该以网页源代码为标准。 2.异步问题。 3.如果网页的源代码与爬虫的源代码不同,则可能是由于反爬虫