快速提问:
R文本分析包Quanteda - findSequence给出了以下输出,我在一些列上找不到文档:
seqs <- findSequences(tokens, types_upper, count_min=2)
head(seqs, 3)
sequence len z p mue
3 first time 2 -0.4159751 0.6612859 -165.7366
8 political parties 2 -0.4159751 0.6612859 -165.7366
9 preserve protect 2 -0.4159751 0.6612859 -165.7366
有人可以帮助定义z,p和mue 是p =概率?如果是的话,如何计算。帮助说,“这个算法基于Blaheta和Johnson的”无监督学习多词动词“。”但没有提供输出组件的更多细节。
看起来和有趣的功能,但更多的信息会有所帮助。
答案 0 :(得分:1)
查看功能代码然后检查论文,z
是根据sigma(渐近标准误差)的lambda(对数比值比)计算的。这是一个z得分,就像皮埃尔评论的那样,p
是概率1 - stats::pnorm(z)
。
mue
在Blaheta和Johnson的“无监督学习多词动词”第2.3节的第二段中进行了解释。 “μ=λ - 3.29σ......这对应于将测量值μ和μ1设置为λ...的0.001置信区间的下限,这是一种在嘈杂的情况下交易召回的系统方法数据(Johnson,2001)。“
如果您转到第2.3节,您可以看到更多详细信息:
我们提出两种不同的关联度μ和μ1,我们 在下面调用“所有子元组”和“unigram子元素”度量。和我们一样 在下面解释,他们似乎找出了非常不同的种类 搭配,所以在某些情况下都很有用。这些 度量是λ和λ1的估计值,这是特别的 某些对数线性模型的参数。在计数的情况下 λ和λ1的估计值可能很小,而且值很高 在进行比较时,应以某种方式打折小计数数据 具有来自大计数数据的值。我们这样做也是通过估算 分别为λ和λ1的渐近标准误差σ和σ1,并设置μ =λ - 3.29σ和μ1=λ1 - 3.29σ1。这对应于将度量μ和μ1设置为0.001置信区间的下限 对于λ和λ1,这是一种交易召回的系统方式 面对嘈杂的数据,精确度(Johnson,2001)。
有关计算λ和σ的细节(和其他参考文献)也在第2.3节
中