如何将CSV文件上传到GitHub存储库并将其用作我的R脚本的数据

时间:2017-10-21 17:34:02

标签: r github

我目前正在做一个使用R处理一些大型csv文件的项目,这些文件保存在链接到我的repo的本地目录中。

到目前为止,我设法创建了R项目并提交并将R脚本推送到repo中而没有任何问题。

但是,脚本会读取保存在本地目录中的csv文件中的数据,因此代码将以表格形式显示

df <- read.csv("mylocaldirectorylink") 

然而,如果我的合作伙伴和我在同一个项目上工作,每次我们将它从会员库中删除时,都必须将该URL更改为我们自己的本地目录。所以我想也许我们可以将csv文件上传到GitHub Repo并让R脚本在线直接引用csv文件。

所以我的问题是:

  • 为什么我不能将csv文件上传到GitHub?他们一直说我的文件太大了。
  • 如果我可以上传csv文件,如何从这些csv文件中读取数据?

1 个答案:

答案 0 :(得分:1)

首先,将数据存储在Github上通常是一个坏主意,特别是如果它很大的话。如果你想将它保存在互联网的某个地方,你可以使用,例如,Dataverse,然后可以通过URL(通过API)或谷歌驱动器访问你的数据,如Jake Kaupp建议的那样。

现在回到你的问题。如果您的数据没有改变,我只会使用CSV的绝对路径而不是相对路径。换句话说,而不是

df <- read.csv("../data.csv")

我会用

getwd()

如果您正在使用R项目,则初始工作目录位于项目的文件夹中。您可以使用 { 1:{id:1, first_name: "Tony", last_name: "Stark", gender: "Male"} 2:{id:2,first_name: "Wonder", last_name: "Woman", gender: "Female"} 3:{id:3,first_name: "Bruce", last_name: "Wayne", gender: "Male"} 4:{id:4,first_name: "Thor", last_name: "Ragnarok", gender: "Male"} 5:{id:5,first_name: "Bruce", last_name: "Banner", gender: "Male"} 6:{id:6,first_name: "Aqua", last_name: "Man", gender: "Male"} 7:{id:7,first_name: "Bat", last_name: "Girl", gender: "Female"} 8:{id:8,first_name: "Me", last_name: "Mario", gender: "MALE"} } 进行检查。移动R项目时,此工作目录会更改。请同意您的同事,您的数据文件应与R项目文件夹所在的文件夹位于同一文件夹中。