我正在使用带有4Gb RAM的32位操作系统的Windows 7,由于32位限制,只能访问3Gb。我关闭了其他所有内容,可以看到我在启动之前有1Gb缓存和1Gb可用。 "免费"记忆力有所不同,但有时为0.
使用quanteda - 我正在使用textfile()命令读取twitter.txt文件,该命令成功创建了一个157Mb的corpusSource对象。当我采取下一步将其转换为"语料库"使用corpus()命令通过它进行爆破并创建一个非常小的空文件,其中包含四个元素,所有元素都包含0' s。代码和输出如下:
twitterfile <- "./final/en_US/en_US.twitter.txt"
precorp <- textfile(twitterfile)
corp <- corpus(twitterprecorp)
summary(corp)
Corpus consisting of 1 document.
Text Types Tokens Sentences
en_US.twitter.txt 0 0 0
Source: C:/R_Data/Capstone/* on x86 by xxxxx
Created: Thu Aug 18 06:32:01 2016
Notes:
Warning message:
In nsentence.character(object, ...) :
nsentence() does not correctly count sentences in all lower-cased text
......。有关为何可能发生这种情况的任何见解?
答案 0 :(得分:0)
textfile()
为您提供字符向量,整个文件包含一个元素。你可能想用
readlines()
如:
precorp <- readlines(twitterfile)
这将为您提供一个字符向量,其中包含文件中每行的元素。然后,corpus()会在创建语料库时将向量的每个元素视为文档。