Question

我试图通过将缩写转换为完整的单词（例如RD-Road）来标准化街道地址。我创建了许多行以说明不同的拼写，并遇到一个问题，其中一个替换代码覆盖了另一个

import pandas as pd 

mydata = {'Street_type': ['PL', 'pl', 'Pl', 'PLACE', 'place']}
mydata = pd.DataFrame(mydata)

mydata['Street_type'] = mydata['Street_type'].replace('PL','Place',regex=True)
mydata['Street_type'] = mydata['Street_type'].replace('pl','Place',regex=True)
mydata['Street_type'] = mydata['Street_type'].replace('Pl','Place',regex=True)
mydata['Street_type'] = mydata['Street_type'].replace('PLACE','Place',regex=True)
mydata['Street_type'] = mydata['Street_type'].replace('place','Place',regex=True)

而不是Place，我得到了Placeace。避免此错误的最佳方法是什么？我是否写了if-else语句或任何函数？提前谢谢！

Answer 1

在其他问题中，您有重叠的逻辑：在替换之前，您无法检查目标（＆＃34;旧＆＃34;）字符串是否为完整字。例如，使用输入类型＆＃34; PLACE＆＃34;，您可以触发第一个和第三个替换，在您达到所需条件之前生成PlaceACE然后PlaceaceACE。

您需要仔细检查跟踪和排除逻辑，然后仅应用一个替换。您可以检查street_type的长度，并应用该长度所需的唯一转换。

如果您尝试转换case语句，则需要遵循该逻辑模式，而不是您编码的连续应用程序。您可以轻松查找如何模拟＆＃34;案例＆＃34; Python中的语句。

还要考虑使用翻译词典，例如

type_trans = {
    "pl":    "Place",
    "Pl":    "Place",
    "PLACE": "Place",
    ...
}

然后你的改变就是

mydata['Street_type'] = type_trans[mydata['Street_type']]

此外，您可以列出元组中的所有变体，例如：

type_place = ("PL", "Pl", "pl", "PLACE", "place")
if mydata['Street_type'] in type_place
mydata['Street_type'] = "Place"

...但请务必在整个街道类型列表中正确概括这一点。

Answer 2

如果您在此处使用正确的正则表达式，则可以通过一次正确执行此操作，例如使用单词边界（\ b）：

{{1}}

Answer 3

有几种现成的地址标准化工具可以解决这个问题以及许多其他问题，这些工具不可避免地会出现在路上。（例如，USPS识别189个街道后缀，例如RD，每个后缀都有几个可能的缩写和拼写错误。）我工作的公司制作了一个名为YAddress的工具。

Answer 4

for(j=i;j<n;j++)
{
    printf(" ");
}

如何正确标准化地址类型

4 个答案: