应用错误收集

时间：2011-06-27 14:46:00

标签： perl similarity tf-idf n-gram

我正试图在每一行的多字中做一些模式'挖掘'。我使用perl中的Text :: Ngrams模块完成了N-gram分析，它给出了每个单词的频率。然而，我对本文中的发现模式感到困惑。

我认为tf-idf也能找到频率，但这与我所做的Ngram分析有何不同，相似性度量如何也有帮助。

请问我是否有任何perl模块或代码片段可以理解其中的一些概念。

请我来自物理背景，但必须做一些模式识别，所以我对其中的一些有点新，会很感激这个主题的好参考。

答案 0 :(得分：-1)

假设你有一堆N个文件而你：

想知道文件X（包含关于如何成为健美运动员的文章）是否与您不知道其内容的另一文件Y相似。如果文档Y与文档X“相似”，它可能包含与健美相关的常用术语 - 例如：举重，杠铃，哑铃和阿诺德。

因此，文档X，文档Y的相似性会非常高。衡量这种相似性的一种方法是使用这两个文档之间的余弦角度。

对Perl模块使用CPAN to search。例如，要计算余弦相似度，您可以尝试Text::Document模块