正在研究将亚马逊产品评论样本聚类的数据集。她已经给我们提供了名为“ autorevs ”的数据,并且还为该数据库创建了名为“ revDTM ”的DTM和名为“ revTDM ”的TDM。我们。
我们首先获得了这两个代码,它们为我们创建了两个新的向量:
products <- sample(unique(autorevs$asin), 250, replace=FALSE)
docs <- autorevs$doc_id[autorevs$asin %in% products]
她陈述了一个问题:
接下来,根据在步骤1中创建的文档和产品向量创建TDM和数据框子集。
我应该创建两个不同的子集吗?或将我的“文档”和“产品”一起子集化...