不必一遍又一遍地加载数据集

时间:2018-11-30 12:32:27

标签: python global-variables spyder

当前在R中,一旦加载数据集(例如,使用read.csv),Rstudio会将其保存为全局环境中的变量。这样可以确保您不必每次执行特定测试或更改时都加载数据集。

对于Python,我不知道哪个文本编辑器/ IDE将允许我执行此操作。例如-我想一次加载一个数据集,然后用它做各种各样的事情,而不是每次运行脚本时都必须加载它。

关于如何执行此操作的任何观点都将非常有用

2 个答案:

答案 0 :(得分:0)

这取决于您的数据集的大小。

对于相对较小的数据集,您可以看看安装Anaconda Python Jupyter笔记本。加载数据集后,非常适合处理数据和可视化。对于较大的数据集,您可以编写一些函数/生成器以有效地遍历数据集。

答案 1 :(得分:0)

当您重新启动RStudio进程时,RStudio进程实际上确实会重新加载数据 工作区,但是当您重新打开工作区时,它会自动为您完成。 因此,当您说想要在Python中使用类似的东西时,我假设您是说 您不想重新键入代码以每次都读取数据,但是您想要 一些自动的方式来重新加载数据。

您可以使用Jupyter笔记本完成此操作,

  • 创建笔记本
  • 输入代码以将数据加载到第一个单元格中
  • 保存笔记本

然后再

  • 打开您保存的笔记本
  • 运行第一个单元格以自动加载数据

如果您想用相同的东西做很多不同的事情 您可以复制加载数据的笔记本的数据 并在所有情况下都使用第一个单元格加载数据。如果你 这样做太多,您可能应该做一个模块助手, 导入助手...

例如,该笔记本:

https://github.com/AaronWatters/jp_doodle/blob/master/notebooks/State%20outlines.ipynb

加载并解析XML文件,然后创建一些派生 数据结构使用xml数据。由于它存储在笔记本中 我再也不需要键入加载逻辑了-我只需重新运行单元即可 加载数据。