我正在对20个新闻组数据集进行一些文本分析,其中一部分依赖于根据所述文章中的单词对不同的文章进行分类。我目前能够做的是解析一篇文章,然后编译它的统计数据。我可以根据文章单独做到这一点,但结合这些文章似乎是我的垮台。
我希望能够做到的,在R中如下:
获取解析词和词干词的频率的两个(理想情况下是任意数字)数据帧,并将它们合并在一起,以将两篇文章中的词的频率显示为一个数据帧。我希望能够在不将文章合并为一个更大的文档的情况下做到这一点。
获取此数据帧并按顶部频率对其进行排序,仅显示前50个。
非常感谢任何帮助!
答案 0 :(得分:3)
由于您没有提供任何示例数据,我只是猜测您的数据是这样的形式:
doc1 <- data.frame( word = LETTERS[sample(26, 10)], freq = sample(100, 10) )
doc2 <- data.frame( word = LETTERS[sample(26, 10)], freq = sample(100, 10) )
看看? merge
。它可以做你想要的:
merge( doc1, doc2, by = "word", all=TRUE, suffixes=c(".doc1", ".doc2") )