我到目前为止已经成功地聚集并识别了#34;趋势主题"来自使用3种不同方法(LDA,SVD和k均值)的推文,其中k = 12。现在的问题是为这些主题提供一个类别。
我使用Alchemy API进行文本分类。但是,我只是将娱乐类别作为响应foreach主题。我认为这个问题是因为推文充满了噪音和俚语(我已经完成了数据清理和预处理)。 我想知道是否有任何NLP库或统计算法能够将文档分类到特定类别(从文本或一组关键字中获取类别)。
答案 0 :(得分:0)
当然,我知道Carrot项目在这里检查:
幕后是一种算法,它也可以推断出类别命名。 如果您需要算法详细信息,可以在此处找到:
http://project.carrot2.org/publications/osinski-2003-lingo.pdf
基本上它使用LSI和SVD,然后用于集群标签归纳。 希望它有所帮助,