互联网上常见的子串

时间:2014-04-23 15:08:30

标签: statistics nlp nltk text-processing

有没有办法找出最常见的子串,这些子串不是在互联网上的所有文件(更重要的是html)中出现的英文单词(统计上显着的样本也会很好),是否有可能获得一些近似值例子" corp"可能是一个候选人,因为它不是一个完整的英语单词,但"伞","""不能成为候选人,因为他们本身就是英文单词。

1 个答案:

答案 0 :(得分:2)

我不会判断你的要求是否有用......

答案:可以引导您自己的网络语料库,您可以在ACL SIGWAC轻松找到记录良好的方法。基本方法包括收集一组代表性种子词(以任何语言或语言)并将它们组合以获得搜索引擎命中。然后,您将获取的网址抓取到网络抓取工具,然后让抓取工具获取文档,直到您有足够的用途为止。

最后,您必须提取原始文本并为所有数据计算一系列字符n-gram模型。你能期待什么?单个字符比任何超过1个字符的组合更频繁,两个字符的组合比三元组更频繁,等等。我怀疑这一切都属于Zipf的法律。但是,过滤掉与整个单词相对应的序列的目的很棘手,会带来更多问题。

虽然可能还有其他工具,但我使用BootCaT toolkitHeritrix crawler的组合构建了基于网络的大型语料库,效果非常好。