我在文本文件中有一个相当大的数据集,大约有2500万行和200列(所有这些都是数字)。我想运行一些摘要统计和数据分析 (生存分析)对他们而言。
将数据导入SAS
的最快方法是什么?
为了运行如此庞大的数据集,我的PC需要多少内存?
由于我是SAS
的新手,因此我们非常感谢任何建议。
答案 0 :(得分:4)
我不确定在使用PROC IMPORT时读取数据集的速度要快得多。提前指定您的信息和格式可能有助于加快速度,但PROC IMPORT默认情况下仅从前20个记录中推断出这些,因此它不会像读取整个数据集一样来确定要使用的数据类型。您的列都是数字的事实可能会有所帮助。最重要的是确保将结果保存到永久数据集(即为其指定库) - 如果您只需要导入一次数据,那么如果需要很长时间则无关紧要。 / p>
SAS的一个好处是它默认将数据保存在磁盘而不是内存中,因此RAM的大小并不会真正限制数据集的大小。它可能会限制您可以对该数据集执行的操作,但我不太了解SAS的内部操作,以便能够预测您遇到的问题。
希望这是一些帮助 - 但最重要的是,我鼓励你开始吧。您可以很快发现SAS对您的数据能做什么和不做什么。