如何使用java从文件中逐个读取所有链接(webcrawling)?

时间:2016-07-14 06:16:23

标签: java loops while-loop web-crawler

文件包含一个文件中的所有链接,并且包含从该链接获取数据的代码,但此代码仅适用于我们在那里提到的一个链接,但是,我们想要执行那些文件中的所有链接存储在一个文件中。它应该一个接一个地同时存储从该链接获取并存储在其他文本文件中的所有数据。

    URL my_url = new URL("http://www.flipkart.com/");
    BufferedReader br = new BufferedReader(new InputStreamReader(my_url.openStream()));
    String strTemp = "";
    while(null != (strTemp = br.readLine())){
    System.out.println(strTemp);                                        
    FileWriter fw = new FileWriter("/home/cloudera/Desktop/output.txt");      
    BufferedWriter bw = new BufferedWriter(fw);  
    String s1;
    while((s1 = br.readLine() ) != null )
{
    bw.write(s1);
    bw.newLine();  
}
    System.out.println("success");
    bw.close(); 
    fw.close();
    //br.close();  
}

}

2 个答案:

答案 0 :(得分:0)

删除第二个,然后执行bw.write(strTemp);

答案 1 :(得分:0)

你正在重新发明轮子。除非是学校的分配,为什么不使用现有的Java爬虫,如NutchStorCrawler,而不是试图解决其他人已经处理过的问题?