我正在阅读500万个观察管道分隔的文本文件。一列的前250,000个值是数字;其余的是字符串。下面的代码导入了前250,000个数值,声明变量为数字(长),并将字符串值视为缺失。
import delimited "mixed_types.txt", delimiter("|")
解决方案:将所有变量作为字符串导入,然后解压缩:
import delimited "mixed_types.txt", delimiter("|") stringcols(_all)
destring, replace
我的问题是,为什么?导入分隔状态的帮助文件,“导入分隔将检查文件是否由制表符或逗号根据第一行数据分隔。"是否遵循此规则归类var类型?
答案 0 :(得分:3)
这不是预期的行为。
来自http://www.stata.com/help.cgi?whatsnew阅读:
- 醇>
import delimited具有以下修复:
一个。 import row,当字符串数据直到row时才出现 导入的文本文件中的变量数为5,000或更高, 错误地选择了数字数据类型而不是字符串数据 该变量的类型。这已得到修复。
您需要update
。请参阅help update
。
(可以通过help whatsnew
访问相同的信息。更新适用于Stata 14.)