Question

我正在使用带有4Gb RAM的32位操作系统的Windows 7，由于32位限制，只能访问3Gb。我关闭了其他所有内容，可以看到我在启动之前有1Gb缓存和1Gb可用。＆＃34;免费＆＃34;记忆力有所不同，但有时为0.

使用quanteda - 我正在使用textfile（）命令读取twitter.txt文件，该命令成功创建了一个157Mb的corpusSource对象。当我采取下一步将其转换为＆＃34;语料库＆＃34;使用corpus（）命令通过它进行爆破并创建一个非常小的空文件，其中包含四个元素，所有元素都包含0＆＃39; s。代码和输出如下：

twitterfile <- "./final/en_US/en_US.twitter.txt" 

precorp <- textfile(twitterfile)
corp <- corpus(twitterprecorp)
summary(corp)

Corpus consisting of 1 document.

              Text Types Tokens Sentences
 en_US.twitter.txt     0      0         0

Source:  C:/R_Data/Capstone/* on x86 by xxxxx
Created: Thu Aug 18 06:32:01 2016
Notes:   

Warning message:
In nsentence.character(object, ...) :
  nsentence() does not correctly count sentences in all lower-cased text

......。有关为何可能发生这种情况的任何见解？

Answer 1

textfile()

为您提供字符向量，整个文件包含一个元素。你可能想用

readlines()

如：

precorp <- readlines(twitterfile)

这将为您提供一个字符向量，其中包含文件中每行的元素。然后，corpus（）会在创建语料库时将向量的每个元素视为文档。

quanteda没有从corpusSource对象创建语料库

1 个答案: