我正在对一些银行对账单进行逻辑回归,主要有 3 个特征:“商店名称”、“日期”、“金额”。目标是预测购买是否是天然气购买。它已经被标记,所以我正在训练逻辑回归。
店铺名称 | 日期 | 金额 | 买气? |
---|---|---|---|
雪佛龙 | 2020-06-02 | 100.00 | 是的 |
costco | 2020-06-02 | 50.00 | 是的 |
亚马逊 | 2020-07-04 | 25.22 | 没有 |
我需要将我的商店名称转换为模型的某种数字。 我基本上想找到所有不同的商店名称,为它们分配一个任意数字,然后用该数字替换商店名称字符串。原因是因为我相信一些商店名称更有可能成为加油站。
我想将商店名称转换为数字,并且想知道是否有比这样做更好的方法:
for i,rows in df.iterrows():
for store_name in list_of_unique_store_names:
store_number = 1
if row.store_name == store_name:
row['store_number'] = store_number
store_number += 1