BufferedReader问题

时间:2015-01-19 17:42:43

标签: java url web-crawler bufferedreader

我正在创建一个抓取.edu域的网络抓取工具。目前,我的程序从命令行读取包含许多.edu和其他参数的url的种子文件。当我从文件中读取每个URL时,我将url传递给下载页面内容的其他函数。当我只传入一个网址时,一切正常。但是,当我发送多个文件时,我的程序在打开URL内容的输入流后就会卡住。

这两个参数来自我的函数(readFromSeedFile),它只打开seed.txt并逐行读取url,然后调用downloadFile。

  public static void downloadFile(String seed, int i) throws IOException, MalformedURLException{

    System.out.println("In downloadFile");
    URL urlObj = new URL(seed);
    System.out.println("1");
    BufferedReader x = new BufferedReader(new InputStreamReader(urlObj.openConnection().getInputStream()));
    System.out.println("2");
    String fileName = "file" + i + ".html";
    System.out.println("3");
    BufferedWriter fos = new BufferedWriter(new FileWriter(fileName));
    System.out.println("4");
    while(x.ready()){
      System.out.println("while loop of downloadFile");
      String line = x.readLine();
      fos.write(line);
      fos.write("\n");
    }
    x.close();
    fos.close();

  }

它会抛出我在ReadFromSeedFile中的IO Exception。 这是我收到的错误消息

S$ javac WebCrawler.java 
S$ java WebCrawler seed.txt 3 4 out.txt
while loop of readSeedFile
http://cs.ucr.edu/
In downloadFile
1
Exception occurred trying to read 'seed.txt'.

BufferedReader是否存在我不理解的内容?

1 个答案:

答案 0 :(得分:0)

也许我错了,但链接http://cs.ucr.edu/无法访问!这是一个可能的错误,你必须与定时器一起工作。