使用jericho html解析器从页面解析指定的文本

时间:2012-03-23 17:40:59

标签: java html-parsing jericho-html-parser

从页面检索指定文本时遇到问题。我使用的示例是Patent Assignee Summary

如果你去网站,你会看到有一个“总数:82”(这是标准SASA的命中数)。我需要得到这个号码。我使用jericho html解析器,但我找不到任何功能。

有人可以帮我这个吗?我真的需要在页面上得到这个号码。

提前致谢 -Sasa

1 个答案:

答案 0 :(得分:0)

如果您可以切换到Jsoup

/* Connect to URL and parse it into a 'Document' */
Document doc = Jsoup.connect("http://assignments.uspto.gov/assignments/q?db=pat&qt=asne&reel=&frame=&pat=&pub=&asnr=&asnri=&asne=sasa&asnei=&asns=").get();

/* Select the required tag and print the value */
System.out.println(doc.select("p.t2").first().text());

完成!

<强>输出:

  总计:83   (网站上的值已更改)

选择器解释说:

doc.select("p.t2") // Select each 'p'-tag with 't2' attribute from document
   .first() // Get the first one (there are two on the website, but the first one is the required one)
   .text() // Get the text of this element

<强>文档