不寻常的语言文本聚类/分类

时间:2018-12-31 15:14:30

标签: nlp classification cluster-analysis data-mining text-classification

简报: 从不寻常的语言中聚类相似文本的方法是什么?

详细信息: 我正在抓捕一个分类广告网站,试图将相似的广告(相同的产品)分组。文本经常拼写错误,用两种语言(有点1ee7)写成,有些文本用不同的字母(例如Diànshì表示电视,或者用velosiped表示велосипед)或不同的方言用语音写。

那您将如何处理这种不可预测的输入?

1 个答案:

答案 0 :(得分:0)

取决于您拥有的数据集的大小。您可以使用一些字符串距离度量(如编辑距离或带有N-gram的Jaccard)为数据对象构造一个相似性矩阵。有许多聚类算法可以基于距离矩阵对几乎所有类型的数据进行聚类。例如,可以使用聚集聚类或密度峰。两者通常具有O(N 2 )时间复杂度,因此对于大型数据集可能不可行。

就个人而言,对于大型(> 500,000)字符串数据集,我使用了密度峰值(比O(N 2 )更快的变量),并且它能够根据语言也。但是该方法尚未公开。