应用错误收集

时间：2018-12-31 15:14:30

标签： nlp classification cluster-analysis data-mining text-classification

简报：从不寻常的语言中聚类相似文本的方法是什么？

详细信息：我正在抓捕一个分类广告网站，试图将相似的广告（相同的产品）分组。文本经常拼写错误，用两种语言（有点1ee7）写成，有些文本用不同的字母（例如Diànshì表示电视，或者用velosiped表示велосипед）或不同的方言用语音写。

那您将如何处理这种不可预测的输入？

答案 0 :(得分：0)

取决于您拥有的数据集的大小。您可以使用一些字符串距离度量（如编辑距离或带有N-gram的Jaccard）为数据对象构造一个相似性矩阵。有许多聚类算法可以基于距离矩阵对几乎所有类型的数据进行聚类。例如，可以使用聚集聚类或密度峰。两者通常具有O（N ²）时间复杂度，因此对于大型数据集可能不可行。

就个人而言，对于大型（> 500,000）字符串数据集，我使用了密度峰值（比O（N ²）更快的变量），并且它能够根据语言也。但是该方法尚未公开。