在java中使用多个分隔符拆分字符串

时间:2012-11-04 21:36:49

标签: java string stop-words

我正在研究一种数据挖掘算法,我需要使用多个单词对字符串进行标记。我有一个单独的文件,其中包含所有的停用词。我需要做的是通过任何作为分隔符的单词(停用词)来标记输入字符串。 例如。
如果文件包含停用词为
一个



的 该

,输入字符串为
“计算机集群由一组松散连接的计算机组成,它们协同工作” 输出来了 计算机集群包括 设置
松散连接的电脑
共同努力

递归检查所有停用词的字符串会非常耗时吗?对此有什么好的方法吗?

1 个答案:

答案 0 :(得分:7)

构造表单的正则表达式

delim1|delim2|delim3

然后使用String的{​​{1}}方法通过任何分隔符拆分文本。

为了构造正则表达式,请读取每个分隔符,并在附加到您构建的正则表达式之前将其传递给split()。这样你的分隔符也可以使用正则表达式元字符。