quanteda没有从corpusSource对象创建语料库

时间:2016-08-18 20:08:27

标签: r corpus quanteda

我正在使用带有4Gb RAM的32位操作系统的Windows 7,由于32位限制,只能访问3Gb。我关闭了其他所有内容,可以看到我在启动之前有1Gb缓存和1Gb可用。 "免费"记忆力有所不同,但有时为0.

使用quanteda - 我正在使用textfile()命令读取twitter.txt文件,该命令成功创建了一个157Mb的corpusSource对象。当我采取下一步将其转换为"语料库"使用corpus()命令通过它进行爆破并创建一个非常小的空文件,其中包含四个元素,所有元素都包含0' s。代码和输出如下:

twitterfile <- "./final/en_US/en_US.twitter.txt" 

precorp <- textfile(twitterfile)
corp <- corpus(twitterprecorp)
summary(corp)

Corpus consisting of 1 document.

              Text Types Tokens Sentences
 en_US.twitter.txt     0      0         0

Source:  C:/R_Data/Capstone/* on x86 by xxxxx
Created: Thu Aug 18 06:32:01 2016
Notes:   

Warning message:
In nsentence.character(object, ...) :
  nsentence() does not correctly count sentences in all lower-cased text

......。有关为何可能发生这种情况的任何见解?

1 个答案:

答案 0 :(得分:0)

textfile()

为您提供字符向量,整个文件包含一个元素。你可能想用

readlines()

如:

precorp <- readlines(twitterfile)

这将为您提供一个字符向量,其中包含文件中每行的元素。然后,corpus()会在创建语料库时将向量的每个元素视为文档。