确定文本正文是包含有效单词还是只是“乱码”

时间:2012-07-30 16:45:39

标签: text word statistics

我对识别任何给定文本正文是否包含有效,实际单词或仅仅是乱码文本的想法很感兴趣。

我遇到的问题是它需要与语言无关,因为我们处理的数据非常国际化。这意味着统计方法或极大的多语言哈希表方法。

多语言哈希表看起来很简单,但不实用且可能很慢。 (或者至少在速度和准确度之间达成妥协。)

但是,在这种情况下,我并不具备对我有用的统计方法的背景,并且非常感谢任何人的经验或意见或任何其他建议。

2 个答案:

答案 0 :(得分:1)

您可以使用ngram分析将文本与示例文本进行比较。这可以是字符或单词。

Google的NGram Viewer可以帮助您了解我的意思。例如,如果我搜索“haddock冰箱”然后没有出现(例如它是乱码),而“堆栈溢出”表示一旦计算机出现就会突然出现。

答案 1 :(得分:1)

您知道或者您能否确定文件的语言?我不认为为单一语言加载字典并且计算有效单词的百分比将非常慢或内存密集。

它需要多准确?