使用Jsoup提取“隐藏”HTML

时间:2015-11-24 15:43:48

标签: javascript java html jsoup

我正在尝试获取未出现在源文档中但可以通过Google Chrome中的“inspect element”公开的HTML数据。

示例页面:http://assignment.uspto.gov/#/search?q=9000000&sort=patAssignorEarliestExDate%20desc%2C%20id%20desc&synonyms=false

有许多div元素包含美国专利号9,000,000的分配数据,它们出现在

行下面
<script async="async" type="text/javascript" src="https://components.uspto.gov/js/ais/2-2-assignment-search.js"></script>

有没有办法用Jsoup提取这个隐藏的HTML?

2 个答案:

答案 0 :(得分:1)

数据似乎加载了AJAX。 JSoup不处理Javascript。

你需要的是一个无头浏览器&#34; API,它处理Javascript而不实际呈现任何内容。

HtmlUnit似乎是最着名的工具,尽管我自己从未使用它。如前所述,Selenium Webdriver也是一种选择。

我相信您必须加载URL,等待所有AJAX处理,最终您将获得几乎与Java中的Chrome相同的解析树,以便随意使用它!

答案 1 :(得分:0)