Question

我正在尝试使用字典来模糊匹配pandas数据框中的一列。我的字典看起来像这样：

{
      "customer name 1": {
         "aliases": [
            "custname1",
            "customer name 1",
            "name 1",
         ]
      },
...
}

目标是使用列表aliases来匹配数据帧的一列中的字符串，然后生成一个新列，如果找到匹配项，该列将具有customer name 1。我的数据框有26列，但我只使用一个名为Business Name的列。不幸的是，我需要读入所有列，因为最后需要将所有列输出到新的csv文件中。

我已经生成了一个可以处理少量数据的解决方案，但是我发现对于较大的数据集，它花费的时间比我期望的要长得多。目前，这是我正在运行的：

def create_aggregate_names(workbook: str, names: dict, sheet: str) -> None:
    if '.xlsx' in workbook:
        wb = pd.read_excel(workbook, sheet_name=sheet)
    else:
        chunks = pd.read_csv(workbook, sep='|', encoding='latin-1', warn_bad_lines=True, error_bad_lines=False,chunksize=1000000)
    path = Path(workbook).parents[0]
    # Parse through rows to create an aggregate business name
    for chunk in chunks:
        if "Aggregate Business Name" not in chunk.columns:
            chunk["Aggregate Business Name"] = ""
        for index, row in chunk.iterrows():
            aggregate_name = str(row["Business Name"])
            for name in names:
                if any(alias in str(row["Business Name"]).lower() for alias in names[name]["aliases"]):
                    aggregate_name = name
            chunk.at[index, 'Aggregate Business Name'] = str(aggregate_name)
        chunk.to_csv("{}/data.csv".format(path), sep='|', index=False, mode='a')

对于一个少于一百万行的csv文件，我可以很好地运行它。一旦获得超过一百万行，该脚本似乎永远运行，没有任何输出。有没有办法处理大型数据集？

Answer 1

首先，您可以通过删除级别aliases来简化字典：

dict_ = {
      "customer name 1": 
          [
            "custname1",
            "customer name 1",
            "name 1",
         ],
    "customer name 2": ['custome name 2']

      }

然后，我们可以使用双列表理解来加快计算速度：

df = pd.DataFrame({'customer_name' : ['custname1', 'custome name 2', "name 1"]})

df['real_name'] = [ [y for y in dict_ if x in dict_[y]][0] 
                     if len([y for y in dict_ if x in dict_[y]])>0 else ''             
                     for x in df['customer_name'] ]

输出：

    customer_name        real_name
0       custname1  customer name 1
1  custome name 2  customer name 2
2          name 1  customer name 1

注意：在列表理解中，我们两次计算了列表[y for y in dict_ if x in dict_[y]，这很可惜。但这在使用walrus operator

的python 3.8中是可以避免的

遍历pandas数据框中的行并匹配列表字典中的值以创建新列

1 个答案: