从基于正则表达式的文件夹导入文件

时间:2016-01-18 12:25:25

标签: stata

我正在使用DHS数据,该数据涉及具有位于不同文件夹中的一致命名的各种数据文件。每个文件夹包含特定国家/地区和调查年份的数据。

我想导入名称中包含“HR”组件的数据集,例如我有ETHR41FL.DTA。 “人力资源”部分是一致的,但名称的其他组成部分因国家和调查年份而异。我需要一次使用一个数据集,然后转到下一个数据集,所以我相信自动搜索会有所帮助。

运行以下命令可以:

dir "*.dta"

  42.6M   5/17/07 10:49  ETBR41FL.dta      
  19.4M   7/17/06 12:32  ETHR41FL.DTA      
  60.5M   7/17/06 12:33  ETIR41FL.DTA      
  10.6M   7/17/06 12:33  ETKR41FL.DTA      
 234.4k   4/05/07 12:36  ETWI41FL.DTA    

我尝试过以下方法,但没有按照要求进行,可能不是最佳或最直接的方法:

local datafiles : dir . files  "*.dta" //store file names in a macro
di `datafiles'
etbr41fl.dtaethr41fl.dtaetir41fl.dtaetkr41fl.dtaetwi41fl.dta

我认为下一步是将上面的宏datafiles的值存储到变量中(因为strupper似乎不适用于宏而是变量)然后转换为大写并提取字符串ETHR41FL.dta。但是,当我这样做时遇到问题:

local datafiles : dir . files  "*.dta" //store file names in a macro

gen datafiles= `datafiles'
invalid '"ethr41fl.dta' 

如果我尝试下面的命令,它可以工作,但会给出一个空值变量:

local datafiles : dir . files  "*.dta" //store file names in a macro

gen datafiles= "`datafiles'"

如何将datafiles的组件存储到新变量中?

如果这样可行,我可以使用正则表达式提取所需的字符串并导入数据集:

gen targetfile= regexs(0) if(regexm(`datafiles', "[A-Z][A-Z][H][R][0-9][0-9][A-Z][A-Z]"))

但是,我也希望采用不同的方法。

4 个答案:

答案 0 :(得分:2)

根据尼克的建议继续使用本地宏而不是将文件名放入Stata变量,这里有一些技术可以实现你声明的目标。我同意Nick忽略Windows提供的文件名的大小写,这是一个不区分大小写的文件系统。我的示例将与区分大小写的文件系统一起使用,但会匹配任何大写或小写或混合大小写的文件名。

. dir *.dta

-rw-r--r--  1 lisowskiw  staff  1199 Jan 18 10:04 a space.dta
-rw-r--r--  1 lisowskiw  staff  1199 Jan 18 10:04 etbr41fl.dta
-rw-r--r--  1 lisowskiw  staff  1199 Jan 18 10:04 ethr41fl.dta
-rw-r--r--  1 lisowskiw  staff  1199 Jan 18 10:04 etir41fl.dta
-rw-r--r--  1 lisowskiw  staff  1199 Jan 18 10:04 etkr41fl.dta
-rw-r--r--  1 lisowskiw  staff  1199 Jan 18 10:04 etwi41fl.dta

. local datafiles : dir . files  "*.dta" 

. di `"`datafiles'"'
"a space.dta" "etbr41fl.dta" "ethr41fl.dta" "etir41fl.dta" "etkr41fl.dta" "etwi41fl.dta"

. foreach file of local datafiles {
  2.     display "`file' testing"
  3.         if regexm(upper("`file'"),"[A-Z][A-Z][H][R][0-9][0-9][A-Z][A-Z]") {
  4.             display "`file' matched!"
  5.             // process file here
.                 }
  6.         }
a space.dta testing
etbr41fl.dta testing
ethr41fl.dta testing
ethr41fl.dta matched!
etir41fl.dta testing
etkr41fl.dta testing
etwi41fl.dta testing

答案 1 :(得分:2)

您可以使用filelist(来自SSC)创建文件名数据集。然后,您可以利用全套Stata数据管理工具来识别要定位的文件。要安装filelist,请输入Stata的命令窗口:

ssc install filelist

以下是数据集的快速示例,该数据集遵循提供的示例:

. filelist, norecur
Number of files found = 6

. list if strpos(upper(filename),".DTA")

     +---------------------------------+
     | dirname   filename        fsize |
     |---------------------------------|
  1. | .         ETBR41FL.dta   12,207 |
  2. | .         ETHR41FL.DTA   12,207 |
  3. | .         ETIR41FL.DTA   12,207 |
  4. | .         ETKR41FL.DTA   12,207 |
  5. | .         ETWI41FL.DTA   12,207 |
     +---------------------------------+

. keep if regexm(upper(filename), "[A-Z][A-Z][H][R][0-9][0-9][A-Z][A-Z]")
(5 observations deleted)

. list

     +---------------------------------+
     | dirname   filename        fsize |
     |---------------------------------|
  1. | .         ETHR41FL.DTA   12,207 |
     +---------------------------------+

. 
. * with only one observation in memory, use immediate macro expansion
. * to form the file name to read in memory
. use "`=filename'", clear
(1978 Automobile Data)

. describe, short

Contains data from ETHR41FL.DTA
  obs:            74                          1978 Automobile Data
 vars:            12                          18 Jan 2016 11:58
 size:         3,182                          
Sorted by: foreign

答案 2 :(得分:1)

我发现问题非常令人费解,因为它是关于提取特定文件名;但如果你知道你想要的文件名,你可以直接输入它。如果要点不同,您可能需要修改您的问题。

但是,让我们讨论一些技巧。

原则上将Stata变量名称放在Stata变量(严格意义上,数据集中的列)中是可能的,但它很少是最好的主意。你应该继续沿着你开始的方向前进,即定义然后操纵本地宏。

在这种情况下,可以通过检查提取变量元素,但让我们展示如何删除一些常见元素:

. local names etbr41fl.dta ethr41fl.dta etir41fl.dta etkr41fl.dta etwi41fl.dta

. local names : subinstr local names ".dta" "", all

. local names : subinstr local names "et" "", all

. di "`names'"
br41fl hr41fl ir41fl kr41fl wi41fl

这足以显示更多技术,即你可以循环使用这些名称。实际上,使用您所说明的构造,您可以以任何方式执行此操作,并且既不需要正则表达式也不需要任何其他内容:

. local datafiles : dir . files  "*.dta"

. foreach f of local datafiles { 
      ... using "`f'" 
} 

 . foreach n of local names { 
      ... using "et`n'.dta" 
 }

这里的示例在给出文字字符串时显示了一个细节,即" "经常需要作为分隔符(并且很少有害)。

请注意。文件名中的大写和小写可能与此无关。 Stata将翻译。

请注意。你说那个

. gen datafiles = "`datafiles'"

给出空值。这可能是因为您在本地宏不可见的语言环境中执行了该语句。常见的例子是:从do-file编辑器窗口执行一个命令,从主命令窗口执行另一个命令;从do-file编辑器窗口逐个执行命令。这就是为什么本地宏如此命名的原因;它们在同一代码块中仅 可见。

答案 3 :(得分:1)

在这种特殊情况下,您实际上不需要使用正则表达式。

strmatch()功能同样可以很好地完成工作:

local datafiles etbr41fl.dta ethr41fl.dta etir41fl.dta etkr41fl.dta etwi41fl.dta

foreach x of local datafiles {
    if strmatch(upper("`x'"), "*HR*") display "`x'"
}
ethr41fl.dta

使用upper()功能是可选的。