我正在尝试分析在线代码,并希望使用贝叶斯分类。但是我需要相当数量的预分类代码作为样本数据。
也许是二十种顶级语言?
有谁知道这样的语料库?
答案 0 :(得分:0)
Kaggle上有一个数据集,其中包含来自StackOverflow的问题,目标是猜测与问题相关的标签。这可能需要猜测代码示例的语言(或只是寻找关键字) https://www.kaggle.com/c/facebook-recruiting-iii-keyword-extraction
通过Github搜索的其他可能性 - 因为所有代码都是免费且开放的。
StackOverflow本身共享自己所有用户贡献帖子(匿名)的数据