Question

快速提问：

R文本分析包Quanteda - findSequence给出了以下输出，我在一些列上找不到文档：

seqs <- findSequences(tokens, types_upper, count_min=2)
head(seqs, 3)
              sequence len          z         p       mue
     3         first time   2 -0.4159751 0.6612859 -165.7366
     8  political parties   2 -0.4159751 0.6612859 -165.7366
     9   preserve protect   2 -0.4159751 0.6612859 -165.7366

有人可以帮助定义z，p和mue 是p =概率？如果是的话，如何计算。帮助说，“这个算法基于Blaheta和Johnson的”无监督学习多词动词“。”但没有提供输出组件的更多细节。

看起来和有趣的功能，但更多的信息会有所帮助。

Answer 1

查看功能代码然后检查论文，z是根据sigma（渐近标准误差）的lambda（对数比值比）计算的。这是一个z得分，就像皮埃尔评论的那样，p是概率1 - stats::pnorm(z)。

mue在Blaheta和Johnson的“无监督学习多词动词”第2.3节的第二段中进行了解释。 “μ=λ - 3.29σ......这对应于将测量值μ和μ1设置为λ...的0.001置信区间的下限，这是一种在嘈杂的情况下交易召回的系统方法数据（Johnson，2001）。“

如果您转到第2.3节，您可以看到更多详细信息：

我们提出两种不同的关联度μ和μ1，我们在下面调用“所有子元组”和“unigram子元素”度量。和我们一样在下面解释，他们似乎找出了非常不同的种类搭配，所以在某些情况下都很有用。这些度量是λ和λ1的估计值，这是特别的某些对数线性模型的参数。在计数的情况下 λ和λ1的估计值可能很小，而且值很高在进行比较时，应以某种方式打折小计数数据具有来自大计数数据的值。我们这样做也是通过估算分别为λ和λ1的渐近标准误差σ和σ1，并设置μ =λ - 3.29σ和μ1=λ1 - 3.29σ1。这对应于将度量μ和μ1设置为0.001置信区间的下限对于λ和λ1，这是一种交易召回的系统方式面对嘈杂的数据，精确度（Johnson，2001）。

有关计算λ和σ的细节（和其他参考文献）也在第2.3节

中

Quanteda findSequence函数的输出定义 - 用于文本分析的R包

1 个答案: