应用错误收集

在大矢量中组合相似的单词（300k）

时间：2017-09-09 20:42:41

标签： r

我有300K左右的大字符，我想在列表中得到一个类似单词的唯一列表。随着群集数量将从应用程序更改为应用程序，群集无法正常工作。

假设数据如下：

x = as.vector(c('accuracy','accuracy','friendliness','friendliness','email','email_','email_hi',`email_asdlk`))

如您所见，此处有3个群集，accuracy friendliness和email

使用大小为300k的stringdistmatrix需要很长时间。还有哪些其他选择？

0 个答案:

没有答案