Java不会遍历大目录中的所有文件

时间:2017-05-31 21:24:40

标签: java loops csv directory

我是第一次使用enron电子邮件数据集进行数据挖掘。 我试图遍历目录中的每个文件,并将每个文件的日期,时间和地址解析为csv文件。

问题是java似乎没有迭代所有这些,这就是我的csv文件大约1000行太短的原因。我该如何解决这个问题?

我的代码:

public class FileReader {


    public static void main(String[] args) throws FileNotFoundException{
    FileReader fileReader = new FileReader();

    //fileReader.mainFunction("maildir/skilling-j/_sent_mail");
    fileReader.mainFunction("maildir/skilling-j/inbox");
    /*fileReader.mainFunction("maildir/skilling-j/sent");
    fileReader.mainFunction("maildir/lay-k/inbox");
    fileReader.mainFunction("maildir/lay-k/_sent");
    fileReader.mainFunction("maildir/lay-k/sent");*/
    System.out.println("done!");

    }
    public void mainFunction(String fileName) throws FileNotFoundException{
    File maindir = new File(fileName);
    PrintWriter pw = new PrintWriter(new File("Analysis.csv"));
    StringBuilder sb = new StringBuilder();
    StringBuilder sbpre = new StringBuilder();

    Scanner scanner;
    sbpre.append("Date");
    sbpre.append(',');
    sbpre.append("Time");
    sbpre.append(",");
    sbpre.append("From");
    sbpre.append('\n');
    int endcounter = 0;
    pw.write(sbpre.toString());
    File [] files = maindir.listFiles();
        for(int i = 0; i < files.length; i++){
            scanner = new Scanner(files[i]);
            System.out.println(files[i].getPath());
            while (scanner.hasNextLine()) {
                String lineFromFile = scanner.nextLine();
                String month = "Jun";
                String year = "2000";
                String time = "00:00:00";
                if(lineFromFile.contains("Date:") & (lineFromFile.length()== 43 | lineFromFile.length()== 42 )){
                    if(lineFromFile.length()==43){
                        sb.append(lineFromFile.substring(11,13));
                        month = lineFromFile.substring(14, 17); 
                        year = lineFromFile.substring(18,22);
                        time = lineFromFile.substring(23,30);
                    }else{
                        sb.append("0");
                        sb.append(lineFromFile.substring(11,12)); 
                        month = lineFromFile.substring(13, 16);
                        year = lineFromFile.substring(17,21);   
                        time = lineFromFile.substring(22,29);
                                            }                   
                    sb.append(".");

                    switch(month){
                    case "Jan":sb.append("01"); sb.append(".");break;
                    case "Feb":sb.append("02"); sb.append(".");break;
                    case "Mar":sb.append("03"); sb.append(".");break;
                    case "Apr":sb.append("04"); sb.append(".");break;
                    case "May":sb.append("05"); sb.append(".");break;
                    case "Jun":sb.append("06"); sb.append(".");break;
                    case "Jul":sb.append("07"); sb.append(".");break;
                    case "Aug":sb.append("08"); sb.append(".");break;
                    case "Sep":sb.append("09"); sb.append(".");break;
                    case "Oct":sb.append("10"); sb.append(".");break;
                    case "Nov":sb.append("11"); sb.append(".");break;
                    case "Dec":sb.append("12"); sb.append(".");break;
                    }
                    sb.append(year);
                    sb.append(",");
                    sb.append(time);
                    sb.append(",");


            }

                if(lineFromFile.contains("X-From:")) {
                        lineFromFile = lineFromFile.replace(",", " ");
                        sb.append(lineFromFile.substring(8));

                    }

            pw.write(sb.toString());
            sb.setLength(0);
        }
            sb.append('\n');
            endcounter = i;
    }
        pw.close();
        System.out.println(endcounter);
    }
}

控制台记录最后一行:

maildir\skilling-j\inbox\997_
maildir\skilling-j\inbox\998_
maildir\skilling-j\inbox\999_
maildir\skilling-j\inbox\99_
maildir\skilling-j\inbox\9_
1251
done!

实际应该是2500行左右。

也很高兴知道我如何遍历带目录的目录(例如&#34; maildir / skilling-j&#34;)而不是带有文件的单个目录。

而且我知道代码有点臃肿,但这是一个无能的编码器(我)的结果。

1 个答案:

答案 0 :(得分:0)

listFiles()方法返回文件和目录列表。您可以使用方法isFile(),isDirectory()来标识文件类型。试试这个简单的代码来验证文件夹中的文件:

    File[] files = maindir.listFiles();
    System.out.println("Files count: " + files.length);
    for (int i = 0; i < files.length; i++) {
        System.out.print(files[i].getAbsolutePath());
        if (files[i].isDirectory()) {
            System.out.println(" dir");
        } else if (files[i].isFile()) {
            System.out.println(" file");
        }
    }

您可以使用isDirectory()方法仅过滤目录并迭代抛出它们。