是否可以将特征学习用于二进制文本分类?

时间:2016-08-31 02:17:40

标签: machine-learning nlp deep-learning

我目前正在与CHILDES语料库合作,尝试创建一个分类器,以区分患有特定语言障碍(SLI)的儿童与正常发展的人(TD)。

在我的阅读中,我注意到确实没有一套令人信服的功能可以区分已经发现的两个,所以我想到了一个疯狂的想法,试图创建一个可能会创造出更好的功能的特征学习算法

这可能吗?如果是这样,你怎么建议我接近这个?从我所做的阅读中,大多数特征学习都是在图像处理上完成的。另一个问题是,我所拥有的数据集可能太小而无法使其工作(在100年代),除非我找到了从儿童那里获得更多成绩单的方法。

1 个答案:

答案 0 :(得分:2)

创建一个由包含三个标签的子文本组成的数据集: 1-正常 2- SLI 3- TD

所以你将有3个标签。

您将40%的数据集放在20%用于开发,20%用于测试。

然后使用字符n-gram特征包运行LogisticRegression分类器(例如使用scikit-learn)。您可以通过scikit-learn中的TfidfVectorizer轻松完成此任务。

然后在60%训练集上训练模型,并通过选择性能最佳的开发模型来调整超参数(例如正则化强度)。

然后,您使用所选的超参数再次训练,并获得最重要的功能,如example

对于每个课程,它会为您提供与每个标签相关的功能的权重,这样您就可以对两种疾病中的每种疾病产生最重要的语言症状。