获取唯一ID和href

时间:2012-02-03 09:19:23

标签: java screen-scraping screen htmlunit

我的输出包含multipe id和href以及其他数据。

如何使用Htmlunit和Java代码获取所有id和href值?

我需要强制要求所有href值,但id不是强制性的......

我该怎么做?我应该在哪里写下给定的代码。

<a id="Repeater1_ctl00_HyperLink2" href="/jobs/Physical-Security-Specialist-308550900.html">

<a id="Repeater1_ctl05_HyperLink1" href="/jobs/Safety-and-Occup-Hlth-Specialist-308549000.html">

<a id="Repeater1_ctl08_HyperLink2" href="/jobs/Nurse-Practitioner-Oca-Esep-Dh-308526400.html">

<a id="Repeater1_ctl09_HyperLink1" href="/jobs/Nurse-Practitioner-Oca-Esep-Dh-308526400.html">

等.....

1 个答案:

答案 0 :(得分:0)

我不会为你编写代码:)但我可以让你知道解决方案。

获取HtmlPage。尝试获取页面的所有HtmlAnchor对象(您可以使用XPath)。迭代HtmlAnchor集合并执行方法getHrefAttribute()以获取href属性。类似地使用HtmlAnchor的getId()方法来获取它的id。就是这样:))