我正在尝试进入机器学习,因此我想尝试在推文上进行文本分类。我收集了一小部分推文,但是为了让我进行任何监督学习,我需要手工标记我收集的一些推文。当我扩展数据时,这是一项艰巨的任务。
有没有办法在没有用手标记大量推文的情况下进行分类? 或者无人监督学习更好地完成这项任务?
答案 0 :(得分:0)
为这样的问题创建了半监督学习方法。最简单的方法包括手动标记少量观察,在标记数据上运行监督学习算法以选择分类器来标记其他观察,并重复这一过程。
答案 1 :(得分:0)
推文是短文。您应该尝试为短文本分类量身定制的分类器,例如LibShortText:https://www.csie.ntu.edu.tw/~cjlin/libshorttext/
本文介绍了短文本(标题)与全文分类的某些属性:https://www.csie.ntu.edu.tw/~cjlin/papers/title.pdf
分类总是涉及标记数据(主动学习技术有助于标记数据集),但您可以利用Snorkel(数据编程)等新兴技术来缓解一些问题:https://github.com/HazyResearch/snorkel