我正在研究挖掘维基百科的更改日志,但我没有看到一个好的方法来解决它

时间:2015-09-24 19:22:18

标签: data-mining wikipedia

我正在研究拼写错误,但首先我需要建立一个良好的流程来挖掘更改日志。不幸的是,我没有看到查看这些日志或对许多日志进行排序的好方法。有没有人有任何经验或知道一个好的方法来解决这个问题?

1 个答案:

答案 0 :(得分:0)

如果您可以处理历史数据(截至2010年),您可以在此公共数据集上使用Google的BigQuery查找提及拼写更正的修订评论(例如拼写错误,拼写等):{ {3}}

依靠评论来自我识别拼写修正可能会错过很多东西,所以蛮力的方法是做所有修改,并查看与你的相匹配的模式的差异寻找。包含所有修订的转储从enwiki-latest-pages-meta-history开始,并在转储目录中以bz2和7z格式提供:https://bigquery.cloud.google.com/table/publicdata:samples.wikipedia?pli=1。这是很多数据(即704 GB bz2压缩,108 GB 7z压缩,15-20 TB未压缩)

这是一个关于使用Hadoop和这些转储来分析版本的(旧)教程:http://dumps.wikimedia.org/enwiki/latest/

您可能还想查看以前在此区域内完成的研究,看看是否有可以重复使用的工具,例如:维基百科修订工具包http://blog.mappian.com/hadoop/using-hadoop-to-analyze-the-full-wikipedia-dump-files-using-wikihadoop/ http://www.aclweb.org/anthology/P11-4017