我正在搜索示例.txt文件以获取信息。 如果有一组关于一个主题的文件(大约20个文件),例如体育,音乐等,那就太好了。
由于
答案 0 :(得分:2)
有许多可用的数据集,例如:
用于评估IR系统的数据集: http://www.daviddlewis.com/resources/testcollections/
更多红外数据集: http://boston.lti.cs.cmu.edu/callan/Data/
几个数据集的综合列表: http://zitnik.si/mediawiki/index.php?title=Datasets
经典新闻组数据集:http://scikit-learn.org/stable/datasets/twenty_newsgroups.html
更大的新闻文章:http://research.signalmedia.co/newsir16/signal-dataset.html