由于StackOverflow附带了大量问题和用户提供的标签,因此我将其视为NLP(自然语言处理)任务中一个有趣的,注释丰富的文本语料库。
基本上,我想根据问题正文自动预测问题标签。我确信这可以在一定程度上完成,并且有一些很好的用例,例如标签建议(例如,使标签使用更加一致),仅举一个。
为此我需要很多 - 甚至更好: - 所有问题以及他们的正文和用户标签用机器学习算法训练标签预测器。
我知道有StackOverflow API,但我可以通过它获取的数据量似乎非常有限 - 当然有充分的理由。
所以问题是:有没有办法从StackOverflow获取/下载所有问题及其用户标签?
答案 0 :(得分:1)
您可以在http://www.clearbits.net/torrents/2076-aug-2012获取数据转储,没有元网站,这是一个由备用版本修复的次要疏忽,但不适用于您的请求。