Question

我正在对20个新闻组数据集进行一些文本分析，其中一部分依赖于根据所述文章中的单词对不同的文章进行分类。我目前能够做的是解析一篇文章，然后编译它的统计数据。我可以根据文章单独做到这一点，但结合这些文章似乎是我的垮台。

我希望能够做到的，在R中如下：

获取解析词和词干词的频率的两个（理想情况下是任意数字）数据帧，并将它们合并在一起，以将两篇文章中的词的频率显示为一个数据帧。我希望能够在不将文章合并为一个更大的文档的情况下做到这一点。

获取此数据帧并按顶部频率对其进行排序，仅显示前50个。

非常感谢任何帮助！

Answer 1

由于您没有提供任何示例数据，我只是猜测您的数据是这样的形式：

doc1 <- data.frame( word = LETTERS[sample(26, 10)], freq = sample(100, 10) )
doc2 <- data.frame( word = LETTERS[sample(26, 10)], freq = sample(100, 10) )

看看? merge。它可以做你想要的：

merge( doc1, doc2, by = "word", all=TRUE, suffixes=c(".doc1", ".doc2") )

在R - 文本分析中合并数据框架

1 个答案: