如何从站点检索所有用户评论?

时间:2015-01-07 11:44:15

标签: java comments excel-2013 crawler4j jericho-html-parser

我想要来自此网站的所有用户评论:http://www.consumercomplaints.in/?search=chevrolet

问题是评论只是部分显示,要查看完整评论我必须点击它上面的标题,并且必须对所有评论重复此过程。

另一个问题是有很多评论页面。

所以我想将所有完整的评论存储在指定上述网站的Excel工作表中。 这可能吗 ? 我正在考虑使用crawler4j和jericho以及Eclipse。

我的visitPage方法代码:  @覆盖        public void visit(Page page){
               String url = page.getWebURL()。getURL();                System.out.println(“URL:”+ url);

           if (page.getParseData() instanceof HtmlParseData) {
                   HtmlParseData htmlParseData = (HtmlParseData) page.getParseData();

                   String html = htmlParseData.getHtml();

  //               Set<WebURL> links = htmlParseData.getOutgoingUrls();
  //               String text = htmlParseData.getText();

                   try
                   {
                       String CrawlerOutputPath = "/DA Project/HTML Source/";
                       File outputfile = new File(CrawlerOutputPath);

                       //If file doesnt exists, then create it
                        if(!outputfile.exists()){
                            outputfile.createNewFile();
                        }

                       FileWriter fw = new FileWriter(outputfile,true);  //true = append file
                       BufferedWriter bufferWritter = new BufferedWriter(fw);
                       bufferWritter.write(html);
                       bufferWritter.close();
                       fw.write(html);
                       fw.close();

                   }catch(IOException e)
                   {
                       System.out.println("IOException : " + e.getMessage() );
                       e.printStackTrace();
                   }

                   System.out.println("Html length: " + html.length());
           }
   }

提前致谢。任何帮助将不胜感激。

1 个答案:

答案 0 :(得分:0)

是的,这是可能的。

  • 开始抓取您的搜索网站(http://www.consumercomplaints.in/?search=chevrolet
  • 使用crawler4j的visitPage方法仅关注注释和正在进行的页面。
  • 从crawler4j获取html内容并将其推送到jericho
  • 过滤掉您要存储的内容并将其写入某种.csv或.xls文件(我更喜欢.csv)

希望这有助于你