应用错误收集

已爬网的html与浏览器中的html不同

时间：2014-09-23 14:11:44

标签： web-crawler

我使用web收获来获取HTML，但我发现我获得的HTML与浏览器中的略有不同。 html中的几个数字在HTML抓取的HTML中用短划线（-）替换。

HTML的所有其他内容都是相同的。即使我用Java代码替换了web收获的http语句来请求HTML，但仍然没有用。

我保证浏览器中的网址和网络收获中的http请求相同。我怎样才能做到这一点？

1 个答案:

答案 0 :(得分：0)

此问题非常普遍，通常与CSS相关的内容存在问题。主要原因是 1.元素不同于Web源代码，这是最常见的现象。元素的代码已由JS渲染。不同是正常的。您可以检查Google主页的元素和源代码，如下所示，它们显然有所不同。Elements View-Source这应该以网页源代码为标准。 2.异步问题。 3.如果网页的源代码与爬虫的源代码不同，则可能是由于反爬虫

为什么DIV的位置与浏览器不同？
WebRequest是检索与浏览器不同的HTML
2个不同的css文件一页，浏览器只应用一个文件的样式
已爬网的html与浏览器中的html不同
在Firefox浏览器中HTML标题看起来不同
Web浏览器在不同的计算机上获得相同的HTML
两个不同托管属性的相同爬网属性
为什么一个域的页面在不同的域名下被抓取？
浏览器中的API响应与代码
动画与Codepen中的动画不同

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？