Question

我刚学习文本挖掘（并使用R！），并想检查我正在这里正确组装文档术语矩阵。现在只为两个文件。这是对的吗？

AAPL <- readLines('AAPL.txt')
JE<- readLines('JaneEyre.txt')

# Preliminary corpus
corpusAAPL <- Corpus(VectorSource(AAPL,JE)) %>%


# Create term-document matrices 
tdmAAPL <- DocumentTermMatrix(corpusAAPL) %>%

此时我希望R至少打印此TDM的一部分，以便我可以检查它是否正常工作。

非常感谢你。

Answer 1

您可以使用select (select count(*) from hr.countries where region_id = 2) as number_countries, (select min(country_name) from hr.countries) as first_contry, (select count(*) from hr.locations l join hr.countries c on l.country_id = c.country_id where c.region_id = 2 ) as num_locations来查看矩阵（documentation的第15页）。

在R＆lt; tm库中查看我的文档 - 术语矩阵

1 个答案: