应用错误收集

时间：2015-08-03 16:24:58

标签： algorithm twitter nlp text-mining text-classification

我到目前为止已经成功地聚集并识别了＃34;趋势主题＆＃34;来自使用3种不同方法（LDA，SVD和k均值）的推文，其中k = 12。现在的问题是为这些主题提供一个类别。

我使用Alchemy API进行文本分类。但是，我只是将娱乐类别作为响应foreach主题。我认为这个问题是因为推文充满了噪音和俚语（我已经完成了数据清理和预处理）。我想知道是否有任何NLP库或统计算法能够将文档分类到特定类别（从文本或一组关键字中获取类别）。

答案 0 :(得分：0)

当然，我知道Carrot项目在这里检查：

幕后是一种算法，它也可以推断出类别命名。如果您需要算法详细信息，可以在此处找到：

基本上它使用LSI和SVD，然后用于集群标签归纳。希望它有所帮助，