当我进行文本分类时,如果文本很长,那么使用朴素贝叶斯分类可以获得非常令人满意的性能。
然而,当上下文出现短文本,如Twitter消息或Stackoverflow中的问题内容时,几乎所有指标(如精确度,召回率,ROC等)都会获得非常糟糕的结果......
是否有一些实用的建议可以帮助我分类这些简短的文字内容?
我很高兴。
答案 0 :(得分:0)
提高相关性会越来越难以进行,您需要考虑最终目标并从那里开始工作。但更接近的一种方法是添加其他指标,在您的情况下,这将是消息长度,字典大小和文章上下文。
假设您更喜欢较长的文章而不是推特,那么长度指标会给文章带来更高的权重。
字典大小大多数时间与文章长度有关,但它也与上下文密切相关。也就是说,关于特定事物的文章在该上下文中将具有高度量,而不是同时讨论多个事物的文章。
要构建上下文,您需要将同义词词典构建为树之间的距离。示例:软件与电子设备相关的计算机相关,但软件与电子设备相关性较弱。
为了提供解决方案,快速而肮脏的解决方案是权衡较短篇文章中的文字。