寻找免费的ngram数据集

时间:2016-03-22 15:25:34

标签: nlp n-gram

我正在使用数据挖掘和NLP技术纠正ASR系统输出中的错误,因为我需要一个n-gram字典。我从维基百科ngram开始,它在小测试集中给出了令人鼓舞的结果(75%的检测率)。但是当我在一个大型数据集上测试我的解决方案时,检测率下降是因为wikipedia ngram不足以涵盖所有英语单词。所以我正在寻找从网上收集的更大的ngram,我找到了“Google Web 1T 5-Grams”但我的实验室没有足够的资源来购买它。 如果有人已经有这个数据集或知道如何免费获得它,请帮助。

1 个答案:

答案 0 :(得分:2)

Google ngram数据免费提供:http://storage.googleapis.com/books/ngrams/books/datasetsv2.html。它不仅仅是太字节,而是按年份分割,大多数用例都不需要,因此您可以将数据聚合成较小的格式。它仍然是书籍中的文字,与大多数用户通常会输入ASR的内容不同。