Crawler4j和Tripadvisor

时间:2012-06-27 10:44:33

标签: javascript crawler4j

我正在使用crawler4j为Tripadvisor编写一个爬虫程序。我需要收集项目的所有评论,但是“下一个”评论(带有数字的评论)的链接不是链接,而是javascript函数。此功能在Tripadvisor的服务器中的某处定义。有没有办法评估这些函数并获取它们返回的页面?

2 个答案:

答案 0 :(得分:0)

你试过eval吗? 或call如果您需要更改来电者上下文。

eval将字符串作为输入并尝试执行它。

答案 1 :(得分:0)

您可以使用HTMLUnit获取页面内容。该库可用于运行所有javascript代码,然后获取要操作的页面代码。

以下是一个示例code,取自stackoverflow上的一个问题。

    HtmlElement element4 = null;
Iterable<HtmlElement> iterable5 = page.getAllHtmlChildElements();
Iterator<HtmlElement> i6 = iterable5.iterator();
while(i6.hasNext() {
    HtmlElement anElement = i6.next();
        if(anElement instanceof HtmlImage) {
        HtmlImage input = (HtmlImage) anElement;
        String[] elements = "http://example.com/pages/powerbutton.png".split( "/" );

        if(input.getSrcAttribute().indexOf(elements[elements.length-1] )> -1 ){
            element4 = input;
            break;
        }
    }
} 
HtmlPage page = element4.click();