我有300K左右的大字符,我想在列表中得到一个类似单词的唯一列表。随着群集数量将从应用程序更改为应用程序,群集无法正常工作。
假设数据如下:
x = as.vector(c('accuracy','accuracy','friendliness','friendliness','email','email_','email_hi',`email_asdlk`))
如您所见,此处有3个群集,accuracy
friendliness
和email
使用大小为300k的stringdistmatrix
需要很长时间。还有哪些其他选择?