使用“特殊”字符导入.csv文件

时间:2015-10-21 16:34:07

标签: r excel encoding

我正在尝试将.csv文件读入R..csv文件是在Excel中创建的,它包含“长”破折号,这是Excel“自动修正”序列空间破折号的结果空间。包含这些“长”破折号的示例条目:

  

美国 - 加利福尼亚 - 洛杉矶   美国 - 华盛顿 - 西雅图

我尝试过不同的编码,包括以下三个选项:

x <- read.csv(filename, encoding="windows-1252") # Motivated by http://www.perlmonks.org/?node_id=551123
x <- read.csv(filename, encoding="latin1")
x <- read.csv(filename, encoding="UFT-8")

但是,长短划线显示为 (第一和第二选项)或<U+0096>(第三选项)。

我意识到我可以以不同的格式存储文件或使用不同的软件(Excel to CSV with UTF8 encoding),但这不是重点。

在这种情况下,是否有人想出R中的编码选项是什么?

1 个答案:

答案 0 :(得分:0)

如果您使用的是RStudio,请使用“导入数据集”。

  • 使用标题:否
  • 分隔符空白
  • 十进制期
  • 引用双重报价
  • 取消选中字符串作为因素

加载文档后,您只需删除现在显示为&#39;?&#39;的列。您可以看到这是第2列和第4列。如果您有数据帧mydf,那么您将删除第二列,如下所示。

public class Receiver extends ParsePushBroadcastReceiver { @Override protected Class<? extends Activity> getActivity(Context context, Intent intent) { return HomeActivity.class; } }

您可以对另一列执行相同的操作,现在是第3列。