构建术语 - 文档矩阵

时间:2013-12-13 00:26:12

标签: r tm

我有一个csv文件,其头部是:DATE Alert和OriginatingAddress 我应该如何根据两列建立一个术语 - 文档矩阵:DATE和Alert 该行将具有警报,列将具有该日期。该条目表示一天中警报的发生次数。

我试过了:

library(tm)
myCorpus <- read.csv("alert-sample-data-4-mining.csv")
corpus <- Corpus(VectorSource(myCorpus$DATE, myCorpus$Alert))
TermDocumentMatrix(corpus)

但结果不是我想要的。

我得到的当前结果是:

++++++++++++++++++++++++++++
术语 - 文档矩阵(31个术语,6912​​4个文档)

非稀疏条目:69124/2073720
稀疏度:97%
最大术语长度:9
加权:术语频率(tf)
+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

STR(myCorpus)
'data.frame':69124 obs。 3个变量:
 $ DATEFORMAT:因子w / 31级“3/01/2013”​​,“3/02/2013”​​,..:21 21 21 21 21 21 21 21 21 21 ...
 $ Alert:因子w / 88水平“%BGP-5-ADJCHANGE”,..:49 49 49 49 49 49 49 49 49 49 ...
 $ OriginatingAddress:因子w / 98级别“10.112.36.12”,..:67 67 67 67 67 67 67 67 67 67 ...

1 个答案:

答案 0 :(得分:0)

我认为你实际上要求的是一个双向频率表,而不是一个术语 - 文档矩阵:

myCorpus <- read.csv("alert-sample-data-4-mining.csv")
table(myCorpus$Alert, myCorpus$DATEFORMAT)