文档相似性自我抄袭

时间:2017-01-29 01:40:05

标签: r quanteda

我有来自100位不同作者的数千份小文件。使用quanteda包,我计算了作者之间的余弦相似度。例如,作者x有100个文本,所以我想出了一个100 x 100的相似矩阵。作者y有50个文本,所以我想出了一个50 x 50的相似度矩阵。

现在我要比较这两位作者。换句话说,哪位作者复制自己更多?如果我取平均值列或行,然后再次平均均值向量,我得到一个数字,所以我可以比较这两种均值,但我不确定这些进程是否正确。我希望我能说清楚。

1 个答案:

答案 0 :(得分:1)

我认为答案取决于您的兴趣数量究竟是多少。如果这是作者文件彼此之间有多相似的单一摘要,那么在作者内部对文档相似性的一些分布可能是比较作者之间数量的最佳方法。

除了使用均值总结此分布的策略之外,您还可以将作者文档中的余弦相似度保存并绘制为密度。为了捕捉方差,我还将描述这种相似性的标准差。

我会谨慎地将作者中的余弦相似性称为“自我抄袭”。余弦相似度计算单词袋的矢量表示的距离度量,并且不被视为识别“抄袭”的方​​法。此外,“剽窃”这个词有很多贬义的含义,这意味着不诚实地代表别人的想法作为你自己的想法。 (我甚至不相信“自我抄袭”这个词有意义,但后来我有不同意的学术同事。)

<强>加了:

考虑R的textreuse package,它是为您正在寻找的重用文本分析而设计的。

我认为Levenshtein距离不是你想要的。正如Wikipedia page指出的那样,小猫坐着之间的LD是3,但这对于他们的语义关系或者作为一个例子的实质性术语绝对没有任何意义。对另一方的“再利用”。可以提出一个论点,即基于单词的LD可能会显示重用,但这并不是大多数算法的例子。 http://turnitin.com实施抄袭检测。