我有一个csv文件,其头部是:DATE Alert和OriginatingAddress 我应该如何根据两列建立一个术语 - 文档矩阵:DATE和Alert 该行将具有警报,列将具有该日期。该条目表示一天中警报的发生次数。
我试过了:
library(tm)
myCorpus <- read.csv("alert-sample-data-4-mining.csv")
corpus <- Corpus(VectorSource(myCorpus$DATE, myCorpus$Alert))
TermDocumentMatrix(corpus)
但结果不是我想要的。
我得到的当前结果是:
++++++++++++++++++++++++++++
术语 - 文档矩阵(31个术语,69124个文档)
非稀疏条目:69124/2073720
稀疏度:97%
最大术语长度:9
加权:术语频率(tf)
+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
STR(myCorpus)
'data.frame':69124 obs。 3个变量:
$ DATEFORMAT:因子w / 31级“3/01/2013”,“3/02/2013”,..:21 21 21 21 21 21 21 21 21 21 ...
$ Alert:因子w / 88水平“%BGP-5-ADJCHANGE”,..:49 49 49 49 49 49 49 49 49 49 ...
$ OriginatingAddress:因子w / 98级别“10.112.36.12”,..:67 67 67 67 67 67 67 67 67 67 ...
答案 0 :(得分:0)
我认为你实际上要求的是一个双向频率表,而不是一个术语 - 文档矩阵:
myCorpus <- read.csv("alert-sample-data-4-mining.csv")
table(myCorpus$Alert, myCorpus$DATEFORMAT)