我正在研究一种数据挖掘算法,我需要使用多个单词对字符串进行标记。我有一个单独的文件,其中包含所有的停用词。我需要做的是通过任何作为分隔符的单词(停用词)来标记输入字符串。
例如。
如果文件包含停用词为
一个
是
和
的
该
,输入字符串为
“计算机集群由一组松散连接的计算机组成,它们协同工作”
输出来了
计算机集群包括
设置
松散连接的电脑
共同努力
递归检查所有停用词的字符串会非常耗时吗?对此有什么好的方法吗?
答案 0 :(得分:7)
构造表单的正则表达式
delim1|delim2|delim3
然后使用String
的{{1}}方法通过任何分隔符拆分文本。
为了构造正则表达式,请读取每个分隔符,并在附加到您构建的正则表达式之前将其传递给split()
。这样你的分隔符也可以使用正则表达式元字符。