OpenNLP培训的'cut-off'和'iteration'是什么意思?

时间:2015-05-14 12:57:52

标签: text-mining opennlp

FOR d in YourData LET leagueList = d.livescore.league FOR league IN leagueList LET eventList = league.match.events FILTER !IS_NULL(eventList) LET eventList2 = eventList.event FOR event IN eventList2 FILTER event._playerid == "2405930" RETURN event cut-off对OpenNLP培训的含义是什么?或者就此而言,自然语言处理。我只需要一个外行解释这些术语。据我所知,迭代是算法重复的次数,并且截断是一个值,如果文本的值高于某个特定类别的截止值,它将被映射到该类别。我是对的吗?

2 个答案:

答案 0 :(得分:13)

正确,术语迭代指的是迭代算法的一般概念,其中一个人开始通过连续产生(希望越来越精确)近似来解决问题一些"理想"解。一般来说,迭代越多,结果就越准确("更好"),但当然必须执行更多的计算步骤。

术语 cutoff (又名截止频率)用于指定缩小 n-gram语言模型的大小的方法(如由OpenNLP使用,例如其词性标注器)。请考虑以下示例:

Sentence 1 = "The cat likes mice."
Sentence 2 = "The cat likes fish."
Bigram model = {"the cat" : 2, "cat likes" : 2, "likes mice" : 1, "likes fish" : 1}

如果在此示例中将截止频率设置为1,则n-gram模型将减少为

Bigram model = {"the cat" : 2, "cat likes" : 2}

也就是说,截止方法从语言模型中删除在训练数据中不常发生的那些n-gram。缩小n-gram语言模型的大小有时是必要的,因为甚至bigrams(更不用说三元组,4克等)的数量会爆发更大的语料库。然后可以使用再生信息(n-gram计数)来统计估计给定的单词(或其POS标签)的概率。 第(n-1) 以前 单词(或POS标签)。

答案 1 :(得分:0)

在Apache OpenNLP库的上下文中,我们可以专门针对此处评论的注释进行文档分类的示例。

positive     I love this. I like this. I really love this product. We like this.
negative     I hate this. I dislike this. We absolutely hate this. I really hate this product.

截断值用于避免单词数少于截断的特征。如果截止值大于2,则“爱”一词可能不会被视为特征,并且我们可能会得到错误的结果。通常,截止值对于避免为很少出现的单词创建不必要的功能很有用。带有进一步说明的详细示例可以为found here in this article