有什么办法可以从Java的.fdt / .fdx / .fdxt文本中读取文本?

时间:2019-09-05 09:08:42

标签: java html parsing html-parsing fdt

我想计算.fdt / .fdx / .fdxt文件中的单词数

我将.fdxt转换为.html,然后进一步对其进行了解析。它在某些情况下是成功的,但并非全部。

    String html="";

    Scanner sc = new Scanner(new File("/home/de-10/Desktop/1.html"));
    while(sc.hasNextLine()) {
        html+=sc.nextLine();
    }
    sc.close();

    System.out.println(html);

    Document doc = Jsoup.parse(html.toString());
    String data = doc.text();
    System.out.println(data);

    Scanner sc1 = new Scanner(new String(data));
    int wordCount=0;
    while(sc1.hasNext()) {
        sc1.next();
        wordCount++;
    }
    sc1.close();

    System.out.println("");
    System.out.println("**********");
    System.out.println("WordCount: "+wordCount);
    System.out.println("**********");
    System.out.println("");

我正在寻找最佳解决方案。

1 个答案:

答案 0 :(得分:0)

您说:“在某些情况下成功了,但并非全部。”因此,我建议在计数之前从文本中删除标点符号。

int wordCount = Jsoup.parse(html).text().replaceAll("\\p{Punct}", "").split("\\s+").length;