DocumentTermMatrix,其中term = ngrams

时间:2018-07-24 16:16:00

标签: r tm

我正在尝试使用TM包来创建DocumentTermMatrix。但是,术语通常等于一个单词。在我的向量中,我的关键字的单词长度有所不同(有些关键字只有一个单词,其他关键字则更多)。如以下示例所示,它们用\ r \ r \ n分隔。构建矩阵时,它将我的关键字分解为单个单词。知道如何使它们粘在一起吗?例如,我不是希望将“人力资本”分为“人力”和“资本”两个术语,而是希望他们在一起,并与其他关键词进行比较。

df_survey_KW <- c("information and communications technology\r\r\nprocurement\r\r\nframework policies\r\r\nDoing Business\r\r\nsmall- and medium-sized enterprises",
             "research projects\r\r\ncompanies", "companies\r\r\nhuman capital")

# Make a vector source: df_source
df_source_KW <- VectorSource(df_survey_KW)
# Make a volatile corpus (corpus: collection of documents)
df_corpus_KW <- VCorpus(df_source_KW)
# Print out df_corpus
df_corpus_KW
# Examine df_corpus metadata
meta(df_corpus_KW)

# Create a TermDocumentMatrix (TDM) from clean_corpus: df_tdm
dtm_KW <- DocumentTermMatrix(df_corpus_KW)

# Convert coffee_tdm to a matrix: df_m
m_KW <- as.matrix(dtm_KW)
m_KW

0 个答案:

没有答案