Question

我正在阅读500万个观察管道分隔的文本文件。一列的前250,000个值是数字;其余的是字符串。下面的代码导入了前250,000个数值，声明变量为数字（长），并将字符串值视为缺失。

import delimited "mixed_types.txt", delimiter("|")

解决方案：将所有变量作为字符串导入，然后解压缩：

import delimited "mixed_types.txt", delimiter("|") stringcols(_all)
destring, replace

我的问题是，为什么？导入分隔状态的帮助文件，“导入分隔将检查文件是否由制表符或逗号根据第一行数据分隔。＆＃34;是否遵循此规则归类var类型？

Answer 1

这不是预期的行为。

import delimited具有以下修复：

一个。 import row，当字符串数据直到row时才出现            导入的文本文件中的变量数为5,000或更高，            错误地选择了数字数据类型而不是字符串数据            该变量的类型。这已得到修复。

您需要update。请参阅help update。

（可以通过help whatsnew访问相同的信息。更新适用于Stata 14.）