stata中字符串变量中单词的可能组合(变体)

时间:2017-10-01 11:25:50

标签: stata

我有一个包含学校名称的字符串变量,我需要找到stata中此字符串变量中每个单词的所有可能组合:

例如,单词" Academy"的变体。将是:

科学院 学院, acdamey, aacdemy, dmcaamy, aacedmy, 等等。

我需要这样来标准化学校名称的原始数据,由于数据输入问题,每个单词都有很多错别字,就像上面给出的"学院"。

1 个答案:

答案 0 :(得分:1)

根据您的数据是否已经存在于Excel工作表或文件中,您可以使用正则表达式尝试匹配所有可能的组合(并且可能在找到时修复它们)或在将字符串引入Excel之前先解析字符串。在任何一种情况下,您都可以创建一个包含所有常见拼写错误的文件(或Excel列表/表格/区域等),并选择每个拼写错误作为正则表达式匹配,以便在与实际输入进行比较时使用。

实际上找到所有可能情况的正则表达式几乎是不可能的,特别是如果存在非常相似(但正确)的学校名称的情况。在任何情况下,直接正则表达式都会非常混乱和复杂,因此我建议您首先找到正确的表单来解析数据,排除它然后使用(贪婪)搜索/正则表达式来查找拼写错误的版本。然后,您可以保存拼写错误以将其用作过滤器/匹配/模式。

要获得某种启动想法,请查看以下链接:

Regex: Search for verb roots

Read text file and extract string into Excel sheet using regex

Ps你应该保留所有字符串/学校名称的数量,最后得到所有与正确形式或任何正则表达式过滤器不匹配的名称列表,这样你就可以手动插入/更正它们。