我即将开始一个项目,我的最终目标是将短文本分类:“可能对访问地点X感兴趣”:“不感兴趣或中立”。地方由一组关键字(例如膳食或里程类型,如“中国食物”)描述。理想情况下,我需要一些基于短文本分析来模拟用户愿望的方法 - 然后根据欲望分数或欲望概率进行分类 - 这个领域是否有任何最先进的技术?谢谢
答案 0 :(得分:6)
此问题与文本的情感分析完全相同。但是,与传统的二元分类不同,您似乎有一种“中立”的观点。情绪分析的最新技术是高度依赖于领域的。例如,在电影分类方面表现优异的技术在商业产品上表现不佳。
此外,即使是功能选择也高度依赖于域。例如,unigrams适用于电影评论分类,但是unigrams和bigrams的组合对于分类twitter文本表现得更好。
我最好的建议是“玩弄”不同的功能。由于您正在查看短文,因此Twitter可能是一个很好的动机示例。我会从unigrams和bigrams开始作为我的特色。确切的算法不是很重要。 SVM通常在正确的参数调整时表现很好。在尝试更大的数据集之前,请使用少量保留数据来调整这些参数。
这个问题更有趣的部分是排名!最近在以下论文中使用了“纯度分数”(并且我认为它们是最先进的):