使用黑名单

时间:2015-05-07 16:44:36

标签: java n-gram

我的问题是,我需要创建1,2,3-Gramms,之后可以从这些ngram中删除单个单词。

示例:

“狗喜欢这辆车”

- > “狗喜欢”,“狗喜欢”,“喜欢汽车”。

现在我要删除像“the”这样的单个令牌。出于这个原因,我不能使用数组,因为我们无法删除条目。删除令牌后,nGramm应按1克或2克处理,具体取决于删除的令牌数量。对于我来说,在创建ngram之后删除blackwords / stopwords是很重要的。

感谢您的帮助,找到了数据结构。

洛罗

0 个答案:

没有答案