在制表数据之前删除标点符号

时间:2014-07-23 19:36:11

标签: r

我遇到了来自剪贴板的数据问题,其中包含大量标点符号(引号,逗号等)。我试图将entirety of Jane Austen's Pride and Prejudice作为纯文本文档,通过复制到剪贴板到R中的变量进行分析。

如果我做了

book <- read.table("clipboard", sep="\n")

我在引用的字符串中得到一个&#34; EOF&#34;错误。如果我把选项放在没有字符串作为因素:

book <- read.table("clipboard", sep="\n", stringsAsFactors=F)

我得到了同样的错误。这通过将多个段落放在存在引号的位置来影响表格。如果我在文本编辑器中打开书并删除双引号和单引号,那么尝试read.table选项,结果是完美的。

有没有办法在read.table阶段之前(或期间?)删除标点符号?我会将剪贴板数据转储到某种大型向量中然后读取该向量吗?

2 个答案:

答案 0 :(得分:1)

你需要禁用引用

这对我有用

book <-read.table("http://www.gutenberg.org/cache/epub/1342/pg1342.txt",
sep="\n",quote="",stringsAsFactors=FALSE)

答案 1 :(得分:0)

read.table函数用于读取矩形结构中的数据并将其放入数据框中。我不希望书中的文字总体上符合这种模式。我建议使用scanreadLines函数代替read.table来阅读数据。阅读有关如何处理引号和分隔符的那些函数的文档。

如果您仍想删除标点符号,请查看?gsub,如果您还要将所有字符转换为大写或小写,请参阅?chartr