我正在尝试使用TM包来创建DocumentTermMatrix。但是,术语通常等于一个单词。在我的向量中,我的关键字的单词长度有所不同(有些关键字只有一个单词,其他关键字则更多)。如以下示例所示,它们用\ r \ r \ n分隔。构建矩阵时,它将我的关键字分解为单个单词。知道如何使它们粘在一起吗?例如,我不是希望将“人力资本”分为“人力”和“资本”两个术语,而是希望他们在一起,并与其他关键词进行比较。
df_survey_KW <- c("information and communications technology\r\r\nprocurement\r\r\nframework policies\r\r\nDoing Business\r\r\nsmall- and medium-sized enterprises",
"research projects\r\r\ncompanies", "companies\r\r\nhuman capital")
# Make a vector source: df_source
df_source_KW <- VectorSource(df_survey_KW)
# Make a volatile corpus (corpus: collection of documents)
df_corpus_KW <- VCorpus(df_source_KW)
# Print out df_corpus
df_corpus_KW
# Examine df_corpus metadata
meta(df_corpus_KW)
# Create a TermDocumentMatrix (TDM) from clean_corpus: df_tdm
dtm_KW <- DocumentTermMatrix(df_corpus_KW)
# Convert coffee_tdm to a matrix: df_m
m_KW <- as.matrix(dtm_KW)
m_KW