Question

我一直试图从页面中提取html值，例如https://www.qwant.com/?q=cat&t=web但是当我使用jSoup或HtmlUnit时，我总是会得到一个与我通过普通浏览器搜索时生成的基本页面无法比较的基本页面。

我的代码一般在其他网站上工作，但是有人可以向我解释为什么当我访问上面的代码时我得不到相同的结果？我试图获取页面上的所有网址值。是用javascript做的吗？

  WebClient wb = new WebClient(BrowserVersion.FIREFOX_52);      
  wb.getPage(url);
  wb.waitForBackgroundJavaScript(25000);
  System.out.println(wb.getCurrentWindow().getEnclosedPage().getWebResponse().getContentAsString());

Answer 1

有些网站只是不允许你无头地解析它们（原因很明显）。当我尝试curl Qwant cat结果页面时，结果是一个空白页面。

但您想尝试从Firefox切换到Chrome作为浏览器：It is not possible to detect and block Chrome headless

通过Json / HtmlUnit从网站获取HTML或链接

1 个答案: