为逻辑回归标记名称

时间:2021-04-09 04:17:47

标签: logistic-regression tokenize

我正在对一些银行对账单进行逻辑回归,主要有 3 个特征:“商店名称”、“日期”、“金额”。目标是预测购买是否是天然气购买。它已经被标记,所以我正在训练逻辑回归。

<头>
店铺名称 日期 金额 买气?
雪佛龙 2020-06-02 100.00 是的
costco 2020-06-02 50.00 是的
亚马逊 2020-07-04 25.22 没有

我需要将我的商店名称转换为模型的某种数字。 我基本上想找到所有不同的商店名称,为它们分配一个任意数字,然后用该数字替换商店名称字符串。原因是因为我相信一些商店名称更有可能成为加油站。

我想将商店名称转换为数字,并且想知道是否有比这样做更好的方法:

for i,rows in df.iterrows():
   for store_name in list_of_unique_store_names:
        store_number = 1
        if row.store_name == store_name:
             row['store_number'] = store_number
        store_number += 1

0 个答案:

没有答案