在大矢量中组合相似的单词(300k)

时间:2017-09-09 20:42:41

标签: r

我有300K左右的大字符,我想在列表中得到一个类似单词的唯一列表。随着群集数量将从应用程序更改为应用程序,群集无法正常工作。

假设数据如下:

x = as.vector(c('accuracy','accuracy','friendliness','friendliness','email','email_','email_hi',`email_asdlk`))

如您所见,此处有3个群集,accuracy friendlinessemail

使用大小为300k的stringdistmatrix需要很长时间。还有哪些其他选择?

0 个答案:

没有答案