我正在尝试获取未出现在源文档中但可以通过Google Chrome中的“inspect element”公开的HTML数据。
有许多div元素包含美国专利号9,000,000的分配数据,它们出现在
行下面<script async="async" type="text/javascript" src="https://components.uspto.gov/js/ais/2-2-assignment-search.js"></script>
有没有办法用Jsoup提取这个隐藏的HTML?
答案 0 :(得分:1)
数据似乎加载了AJAX。 JSoup不处理Javascript。
你需要的是一个无头浏览器&#34; API,它处理Javascript而不实际呈现任何内容。
HtmlUnit似乎是最着名的工具,尽管我自己从未使用它。如前所述,Selenium Webdriver也是一种选择。
我相信您必须加载URL,等待所有AJAX处理,最终您将获得几乎与Java中的Chrome相同的解析树,以便随意使用它!
答案 1 :(得分:0)
如果这是您需要的唯一信息,请点击JSON
您要查找的信息的网址:
通过检查Chrome开发者工具的“网络”标签检索了此内容,您可以使用HttpConnection
获取此网址的内容。可以找到一个示例here。获取JSON
文件后,您可以解析它以检索您需要的任何信息。