用于训练文本分类器的数据集

时间:2015-12-24 14:11:37

标签: text-mining text-classification

我是数据挖掘的新手,我正在尝试构建一个能够将学生论文摘要分类为计算机科学领域的预定义类别集的分类器,例如:机器学习,图像处理......等。 我没有足够的分类摘要用作训练数据集,所以请您指向可用于此特定目的的数据集。

1 个答案:

答案 0 :(得分:0)

您可以使用DBLP数据(可从http://dblp.uni-trier.de/xml/下载)生成出版物列表。根据会议/日记,您可以生成您的课程,例如MLJR一直是机器学习。

您可以使用以下内容获取的摘要: https://github.com/arc12/Text-Mining-Weak-Signals/blob/master/Abstract%20Acquisition%20Scripts/DBLP%20XML%20fetch%20abstracts%20.pl