我正在尝试将一个分类数据框转换为49个变量(机场站代码)和41,814个观测值到一个表格和堆积条形图(如果可能的话),将它们分成4组,基于它们的频率。
将数据转换为数据框后,我似乎无法正常工作。到目前为止,我的工作是:
import math
def delT():
#inputs
#float inputs
#do math
#print results
global count
count=0
def getAndValidateNext():
#print menu
getNext=input("select something")
acceptNext=["things","that","work"]
while getNext not in acceptNext:
count+=1
print("Not a listed option.")
if count==5:
print("get good.")
return
return(getAndVadlidateNext())
if getNext in nextRestart:
print()
return(delT())
if getNext in nextExit:
return
getAndVadlidateNext()
delT()
我正在使用的一些数据的示例。
corp = Corpus(VectorSource((OPSLOG2016$Base)))
corp = tm_map(corp, PlainTextDocument)
corp = tm_map(corp, tolower)
corp = tm_map(corp, removePunctuation)
stopwords("english")[1:100]
corp = tm_map(corp, removeWords,c(stopwords('english')))
corp <- tm_map(corp,stripWhitespace)
corp = tm_map(corp, PlainTextDocument)
corp <- tm_map(corp, stemDocument, language="english")
freq = DocumentTermMatrix(corp)
findFreqTerms(freq, lowfreq = 25)
sparse = removeSparseTerms(freq, 0.999)
freqSparse = as.data.frame(as.matrix(sparse))
freqSplit = split(freqSparse,4)
geom_bar(mapping = NULL, data = freqSparse, stat = "count", position =
"stack", width = NULL, binwidth = NULL, na.rm = FALSE,
show.legend = TRUE, inherit.aes = TRUE)
我还不熟悉R中的许多不同包装,或者它们的不同功能,所以如果可能的话,我喜欢指向正确的方向。