标签: java nlp text-mining
我的用例是我有传入的文件。一些具有描述性文件名,而另一些具有文件名的数字和/或字母的集合。
我很想知道,什么是检测文件名何时不是英文单词的合适方法?
是否有任何可以执行此类任务的文本挖掘范例?
由于
答案 0 :(得分:0)
你需要查找一个英文单词表,并在用表格检查传入的单词时。对于这棵树你可以使用它:
https://code.google.com/p/word2vec/
你只需要使用那里的单词表。表中的任何内容都是有效的单词。
答案 1 :(得分:0)
您需要使用可能的单词(使用空格,短划线,非数字或适合您的数据的任何内容)拆分文件名,然后通过字典运行单词。如果80%的单词都是英文,这可能是一个非荒谬的名字。
单词列表的示例很多:这是cmudict和/或question