我正试图在每一行的多字中做一些模式'挖掘'。我使用perl中的Text :: Ngrams模块完成了N-gram分析,它给出了每个单词的频率。然而,我对本文中的发现模式感到困惑。
我认为tf-idf也能找到频率,但这与我所做的Ngram分析有何不同,相似性度量如何也有帮助。
请问我是否有任何perl模块或代码片段可以理解其中的一些概念。
请我来自物理背景,但必须做一些模式识别,所以我对其中的一些有点新,会很感激这个主题的好参考。
答案 0 :(得分:-1)
假设你有一堆N个文件而你:
想知道文件X(包含关于如何成为健美运动员的文章)是否与您不知道其内容的另一文件Y相似。如果文档Y与文档X“相似”,它可能包含与健美相关的常用术语 - 例如:举重,杠铃,哑铃和阿诺德。
因此,文档X,文档Y的相似性会非常高。衡量这种相似性的一种方法是使用这两个文档之间的余弦角度。
余弦相似度参考:http://www.miislita.com/information-retrieval-tutorial/cosine-similarity-tutorial.html
对Perl模块使用CPAN to search。例如,要计算余弦相似度,您可以尝试Text::Document模块