Quanteda findSequence函数的输出定义 - 用于文本分析的R包

时间:2016-09-14 18:04:19

标签: r quanteda

快速提问:

R文本分析包Quanteda - findSequence给出了以下输出,我在一些列上找不到文档:

seqs <- findSequences(tokens, types_upper, count_min=2)
head(seqs, 3)
              sequence len          z         p       mue
     3         first time   2 -0.4159751 0.6612859 -165.7366
     8  political parties   2 -0.4159751 0.6612859 -165.7366
     9   preserve protect   2 -0.4159751 0.6612859 -165.7366

有人可以帮助定义z,p和mue 是p =概率?如果是的话,如何计算。帮助说,“这个算法基于Blaheta和Johnson的”无监督学习多词动词“。”但没有提供输出组件的更多细节。

看起来和有趣的功能,但更多的信息会有所帮助。

1 个答案:

答案 0 :(得分:1)

查看功能代码然后检查论文,z是根据sigma(渐近标准误差)的lambda(对数比值比)计算的。这是一个z得分,就像皮埃尔评论的那样,p是概率1 - stats::pnorm(z)

mue在Blaheta和Johnson的“无监督学习多词动词”第2.3节的第二段中进行了解释。 “μ=λ - 3.29σ......这对应于将测量值μ和μ1设置为λ...的0.001置信区间的下限,这是一种在嘈杂的情况下交易召回的系统方法数据(Johnson,2001)。“

如果您转到第2.3节,您可以看到更多详细信息:

  

我们提出两种不同的关联度μ和μ1,我们   在下面调用“所有子元组”和“unigram子元素”度量。和我们一样   在下面解释,他们似乎找出了非常不同的种类   搭配,所以在某些情况下都很有用。这些   度量是λ和λ1的估计值,这是特别的   某些对数线性模型的参数。在计数的情况下   λ和λ1的估计值可能很小,而且值很高   在进行比较时,应以某种方式打折小计数数据   具有来自大计数数据的值。我们这样做也是通过估算   分别为λ和λ1的渐近标准误差σ和σ1,并设置μ   =λ - 3.29σ和μ1=λ1 - 3.29σ1。这对应于将度量μ和μ1设置为0.001置信区间的下限   对于λ和λ1,这是一种交易召回的系统方式   面对嘈杂的数据,精确度(Johnson,2001)。

有关计算λ和σ的细节(和其他参考文献)也在第2.3节