如何最好地检测非荒谬的文本?

时间:2014-06-25 16:47:42

标签: java nlp text-mining

我的用例是我有传入的文件。一些具有描述性文件名,而另一些具有文件名的数字和/或字母的集合。

我很想知道,什么是检测文件名何时不是英文单词的合适方法?

是否有任何可以执行此类任务的文本挖掘范例?

由于

2 个答案:

答案 0 :(得分:0)

你需要查找一个英文单词表,并在用表格检查传入的单词时。对于这棵树你可以使用它:

https://code.google.com/p/word2vec/

你只需要使用那里的单词表。表中的任何内容都是有效的单词。

答案 1 :(得分:0)

您需要使用可能的单词(使用空格,短划线,非数字或适合您的数据的任何内容)拆分文件名,然后通过字典运行单词。如果80%的单词都是英文,这可能是一个非荒谬的名字。

单词列表的示例很多:这是cmudict和/或question