为什么,不是如何:Stata错误地识别大型数据集中的var类型,其中vars中包含混合(字符串+数字)值

时间:2015-07-26 20:03:18

标签: stata

我正在阅读500万个观察管道分隔的文本文件。一列的前250,000个值是数字;其余的是字符串。下面的代码导入了前250,000个数值,声明变量为数字(长),并将字符串值视为缺失。

import delimited "mixed_types.txt", delimiter("|")

解决方案:将所有变量作为字符串导入,然后解压缩:

import delimited "mixed_types.txt", delimiter("|") stringcols(_all)
destring, replace

我的问题是,为什么?导入分隔状态的帮助文件,“导入分隔将检查文件是否由制表符或逗号根据第一行数据分隔。"是否遵循此规则归类var类型?

1 个答案:

答案 0 :(得分:3)

这不是预期的行为。

来自http://www.stata.com/help.cgi?whatsnew阅读:

  
      
  1. import delimited具有以下修复:

         

    一个。 import row,当字符串数据直到row时才出现            导入的文本文件中的变量数为5,000或更高,            错误地选择了数字数据类型而不是字符串数据            该变量的类型。这已得到修复。

  2.   

您需要update。请参阅help update

(可以通过help whatsnew访问相同的信息。更新适用于Stata 14.)