我遇到了来自剪贴板的数据问题,其中包含大量标点符号(引号,逗号等)。我试图将entirety of Jane Austen's Pride and Prejudice作为纯文本文档,通过复制到剪贴板到R中的变量进行分析。
如果我做了
book <- read.table("clipboard", sep="\n")
我在引用的字符串中得到一个&#34; EOF&#34;错误。如果我把选项放在没有字符串作为因素:
book <- read.table("clipboard", sep="\n", stringsAsFactors=F)
我得到了同样的错误。这通过将多个段落放在存在引号的位置来影响表格。如果我在文本编辑器中打开书并删除双引号和单引号,那么尝试read.table选项,结果是完美的。
有没有办法在read.table阶段之前(或期间?)删除标点符号?我会将剪贴板数据转储到某种大型向量中然后读取该向量吗?
答案 0 :(得分:1)
你需要禁用引用
这对我有用
book <-read.table("http://www.gutenberg.org/cache/epub/1342/pg1342.txt",
sep="\n",quote="",stringsAsFactors=FALSE)
答案 1 :(得分:0)
read.table
函数用于读取矩形结构中的数据并将其放入数据框中。我不希望书中的文字总体上符合这种模式。我建议使用scan
或readLines
函数代替read.table
来阅读数据。阅读有关如何处理引号和分隔符的那些函数的文档。
如果您仍想删除标点符号,请查看?gsub
,如果您还要将所有字符转换为大写或小写,请参阅?chartr
。