需要有关体育,娱乐,健康等类别和所有子类别的培训数据

时间:2011-11-29 14:48:24

标签: text machine-learning wikipedia document-classification

我正在试验ML中的分类算法,我正在寻找一些语料库来训练我的模型来区分不同的类别,如运动,天气,技术,足球,板球等,

我需要一些指示,我可以在哪里找到这些类别的数据集,

对我来说,另一个选择是抓取维基百科以获取30多个类别的数据,但如果有更好的方法,我想要一些头脑风暴和意见。

修改

使用这些类别的词袋方法训练模型 测试 - 根据网页内容将新/未知网站分类为这些预定义类别。

1 个答案:

答案 0 :(得分:4)

UCI machine learning repository包含可搜索的有监督学习数据集存档。

如果您提供有关理想数据集的输入和输出的更具体信息,您可能会得到更好的答案。

修改