Question

我有一个csv文件，其头部是：DATE Alert和OriginatingAddress 我应该如何根据两列建立一个术语 - 文档矩阵：DATE和Alert 该行将具有警报，列将具有该日期。该条目表示一天中警报的发生次数。

我试过了：

library(tm)
myCorpus <- read.csv("alert-sample-data-4-mining.csv")
corpus <- Corpus(VectorSource(myCorpus$DATE, myCorpus$Alert))
TermDocumentMatrix(corpus)

但结果不是我想要的。

我得到的当前结果是：

++++++++++++++++++++++++++++
术语 - 文档矩阵（31个术语，69124个文档）

非稀疏条目：69124/2073720
稀疏度：97％
最大术语长度：9
加权：术语频率（tf）
+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

STR（myCorpus）
'data.frame'：69124 obs。 3个变量：
$ DATEFORMAT：因子w / 31级“3/01/2013”，“3/02/2013”，..：21 21 21 21 21 21 21 21 21 21 ...
$ Alert：因子w / 88水平“％BGP-5-ADJCHANGE”，..：49 49 49 49 49 49 49 49 49 49 ...
$ OriginatingAddress：因子w / 98级别“10.112.36.12”，..：67 67 67 67 67 67 67 67 67 67 ...

Answer 1

我认为你实际上要求的是一个双向频率表，而不是一个术语 - 文档矩阵：

myCorpus <- read.csv("alert-sample-data-4-mining.csv")
table(myCorpus$Alert, myCorpus$DATEFORMAT)

构建术语 - 文档矩阵

1 个答案: