应用错误收集

我不会判断你的要求是否有用......

答案：可以引导您自己的网络语料库，您可以在ACL SIGWAC轻松找到记录良好的方法。基本方法包括收集一组代表性种子词（以任何语言或语言）并将它们组合以获得搜索引擎命中。然后，您将获取的网址抓取到网络抓取工具，然后让抓取工具获取文档，直到您有足够的用途为止。

最后，您必须提取原始文本并为所有数据计算一系列字符n-gram模型。你能期待什么？单个字符比任何超过1个字符的组合更频繁，两个字符的组合比三元组更频繁，等等。我怀疑这一切都属于Zipf的法律。但是，过滤掉与整个单词相对应的序列的目的很棘手，会带来更多问题。

虽然可能还有其他工具，但我使用BootCaT toolkit和Heritrix crawler的组合构建了基于网络的大型语料库，效果非常好。