读取文本文件,并将每个单词放入数组中,不带标点符号或数字

时间:2014-11-19 00:12:36

标签: java

我想知道如何用Java读取txt文件,并将txt文件中的每个单词放入数组中的不同存储桶中,但没有标点符号或文件中的数字。我只对存储单词感兴趣。

因此,如果文本文件包含:" 25只鸡过马路。"该程序应该创建一个数组,如{"鸡","交叉","","道路"}

我想在一个相当大的文本文件上执行此操作。我会遇到任何运行时问题吗?

如果你可以向我解释一下,我是一个完整的菜鸟,那就太好了。 我很感激。

1 个答案:

答案 0 :(得分:0)

执行.replaceAll(regex, "")将使用第二个参数的内容替换所有匹配的字符(在这种情况下为空字符串)。匹配是用正则表达式完成的。

第二步是对.split(regex)返回的字符串使用replaceAll,并将字符串拆分为空格(.split(" "))。这将返回一个包含所有单词的数组。

编写正则表达式的简便方法是使用http://www.regexr.com

示例代码:(未经测试)

String oldText = "25 chickens crossed the road.";

String newText = oldText.replaceAll("\!|\.|\?|\d/g","");

String[] strArray = newText.split(" ","");