如何使用scraper扩展文本

时间:2014-10-02 10:39:39

标签: java web-scraping

我需要创建一个Java应用程序(部分创建),需要从tripadvisor网页中删除所有评论,如下所示: http://www.tripadvisor.com/Hotel_Review-g187323-d233869-Reviews-or10-Hotel_Delta-Berlin.html

我对web-harverst很新,所以现在我发现这个未扩展的文本存在问题。要查看完整版评论,需要点击“更多”链接,如下所示:

<span class="taLnk hvrIE6 tr162902990 moreLink ulBlueLinks" onclick="ta.util.cookie.setPIDCookie(2247);ta.call('ta.servlet.Reviews.expandReviews',event,this,'review_162902990', '1', 2247)">    More </span>

因此它运行一个脚本,可能会询问数据库。 我的问题是:有没有可能在Java中模拟这个“更多” - 单击动作?或者另一种获取全文的方法?哪个图书馆可以帮到我?

提前谢谢。

1 个答案:

答案 0 :(得分:0)

似乎HtmlUnit真的可以做到。但我仍有困难:https://stackoverflow.com/questions/26203701/htmlunit-to-expand-reviews