应用错误收集

如果您可以处理历史数据（截至2010年），您可以在此公共数据集上使用Google的BigQuery查找提及拼写更正的修订评论（例如拼写错误，拼写等）：{ {3}}

依靠评论来自我识别拼写修正可能会错过很多东西，所以蛮力的方法是做所有修改，并查看与你的相匹配的模式的差异寻找。包含所有修订的转储从enwiki-latest-pages-meta-history开始，并在转储目录中以bz2和7z格式提供：https://bigquery.cloud.google.com/table/publicdata:samples.wikipedia?pli=1。这是很多数据（即704 GB bz2压缩，108 GB 7z压缩，15-20 TB未压缩）

这是一个关于使用Hadoop和这些转储来分析版本的（旧）教程：http://dumps.wikimedia.org/enwiki/latest/

您可能还想查看以前在此区域内完成的研究，看看是否有可以重复使用的工具，例如：维基百科修订工具包http://blog.mappian.com/hadoop/using-hadoop-to-analyze-the-full-wikipedia-dump-files-using-wikihadoop/ http://www.aclweb.org/anthology/P11-4017

我正在研究挖掘维基百科的更改日志，但我没有看到一个好的方法来解决它

1 个答案: