如何将大型数据集导入SAS?

时间:2011-02-12 14:26:28

标签: sas

我在文本文件中有一个相当大的数据集,大约有2500万行和200列(所有这些都是数字)。我想运行一些摘要统计和数据分析 (生存分析)对他们而言。

  1. 将数据导入SAS的最快方法是什么?

  2. 为了运行如此庞大的数据集,我的PC需要多少内存?

  3. 由于我是SAS的新手,因此我们非常感谢任何建议。

1 个答案:

答案 0 :(得分:4)

警告:我在SAS中从未做过这种事情,但我想我理解SAS如何运作良好以进行一些猜测。

  1. 我不确定在使用PROC IMPORT时读取数据集的速度要快得多。提前指定您的信息和格式可能有助于加快速度,但PROC IMPORT默认情况下仅从前20个记录中推断出这些,因此它不会像读取整个数据集一样来确定要使用的数据类型。您的列都是数字的事实可能会有所帮助。最重要的是确保将结果保存到永久数据集(即为其指定库) - 如果您只需要导入一次数据,那么如果需要很长时间则无关紧要。 / p>

  2. SAS的一个好处是它默认将数据保存在磁盘而不是内存中,因此RAM的大小并不会真正限制数据集的大小。它可能会限制您可以对该数据集执行的操作,但我不太了解SAS的内部操作,以便能够预测您遇到的问题。

  3. 希望这是一些帮助 - 但最重要的是,我鼓励你开始吧。您可以很快发现SAS对您的数据能做什么和不做什么。