JSoup无法检索此文档

时间:2017-04-17 01:51:54

标签: java jsoup

这是网址: http://immobilier.nc/recherche?section=offres_vente&bien=&prix_location=&prix_vente=&pays=nc&ville=&quartier=&par_page=25&orderBy=&orderDirection=DESC&moteurRecherche_option=last_offr

这是我的代码:

#Notice the extra parameter y is removed here
cv = StratifiedKFold(n_splits=6)

#Also note that the cv.split() is called here (opposed to cv in ver 0.17 above)
for train_index, test_index in cv.split(X, y):
   print("TRAIN:", train_index, "TEST:", test_index)
   X_train, X_test = X[train_index], X[test_index]
   y_train, y_test = y[train_index], y[test_index]

问题是我得到的页面与浏览器上的页面不同。

例如,此标记不在Jsoup Doc中(但在浏览器中):

Jsoup.connect(url)
                   .timeout(10000)
                   .followRedirects(true)
                   .validateTLSCertificates(false)
                   .get();

1 个答案:

答案 0 :(得分:1)

您显示的第一个请求中缺少的部分是包含商品的表格的内容。该表通过ajax调用http://immobilier.nc/immo_offres.php从网页加载,然后集成到显示的网页中。

Jsoup从您显示为浏览器的网址加载相同的内容,但仅加载第一页。 Jsoup不会解释页面中的javascript代码,也不会额外加载其他数据,因此您不会获得与浏览器加载页面时相同的内容,并使用其他ajax调用的结果填充它。 / p>