Question

我在Stata中有一个很大的数据集，我必须清理名称以便以后与这些姓氏匹配。

我的数据中常见的一个问题是变音符号，如下所示：

让·巴斯蒂安（JEANSÉBASTIEN）上的吉恩·斯切特（JEANSÉBASTIEN）

我可以使用以下命令删除ACUTE OVER：

replace name=subinstr(name," ACUTE OVER ","",.)

但是，我仍然必须考虑E和BASTIEN之间的间隔。我不能只删除所有空格，因为可以有两个以上的姓氏。

有什么办法可以以一种非常简单的方式实现这一目标？

请注意，我不关心E上的尖锐字符，因为无论如何以后我都必须替换它。

Answer 1

您需要执行多遍操作才能获得所需的输出。

例如，如果您的数据中的变音符号始终位于名字之后，并且您事先知道这些名称，则可以执行以下操作：

clear

input str50 stringvar
"JEAN S ACUTE OVER E BASTIEN"
"JERARD DE ALOHA HEY P ARTIER"
"Etienne SOMETHING ANSEL"
end

replace stringvar = subinstr(strtrim(stringvar), " ", ";", 1)
replace stringvar = subinstr(stringvar, " ", "", .)

foreach x in "ACUTEOVER" "ALOHAHEY" "SOMETHING" {
    replace stringvar = subinstr(stringvar, "`x'", "", .)
}

replace stringvar = subinstr(stringvar, ";", " ", 1)

list

     +------------------+
     |        stringvar |
     |------------------|
  1. |   JEAN SEBASTIEN |
  2. | JERARD DEPARTIER |
  3. |    Etienne ANSEL |
     +------------------+

请注意，此答案中使用的名称是虚构的法语！

替换变量的一部分并消除空格

1 个答案: