推文分类

时间:2014-05-22 19:00:43

标签: twitter machine-learning text-classification

我正在尝试进入机器学习,因此我想尝试在推文上进行文本分类。我收集了一小部分推文,但是为了让我进行任何监督学习,我需要手工标记我收集的一些推文。当我扩展数据时,这是一项艰巨的任务。

有没有办法在没有用手标记大量推文的情况下进行分类? 或者无人监督学习更好地完成这项任务?

2 个答案:

答案 0 :(得分:0)

为这样的问题创建了半监督学习方法。最简单的方法包括手动标记少量观察,在标记数据上运行监督学习算法以选择分类器来标记其他观察,并重复这一过程。

答案 1 :(得分:0)

推文是短文。您应该尝试为短文本分类量身定制的分类器,例如LibShortText:https://www.csie.ntu.edu.tw/~cjlin/libshorttext/

本文介绍了短文本(标题)与全文分类的某些属性:https://www.csie.ntu.edu.tw/~cjlin/papers/title.pdf

分类总是涉及标记数据(主动学习技术有助于标记数据集),但您可以利用Snorkel(数据编程)等新兴技术来缓解一些问题:https://github.com/HazyResearch/snorkel