如何将熊猫数据框字符串值转换为数值

时间:2019-01-05 19:36:50

标签: python pandas scikit-learn

我有一个数据集。它具有一些字符串列。我想转换这些字符串列。我正在使用此数据集开发神经网络。但是由于数据集具有一些字符串值,所以我无法训练我的神经网络。将这些字符串值转换为神经网络可读格式的最佳方法是什么?

这是我拥有的数据集

type,amount,nameOrig,oldbalanceOrg,newbalanceOrig,nameDest,oldbalanceDest,newbalanceDest,isFraud,isFlaggedFraud
PAYMENT,9839.64,C1231006815,170136.0,160296.36,M1979787155,0.0,0.0,1,0
PAYMENT,1864.28,C1666544295,21249.0,19384.72,M2044282225,0.0,0.0,0,0
TRANSFER,181.0,C1305486145,181.0,0.0,C553264065,0.0,0.0,0,1

我想将这些 type,nameOrig,nameDest 字段转换为神经网络可读格式。

我使用了以下方法。但我不知道惠特尔是对是错。

import pandas as pd
from sklearn.preprocessing import LabelEncoder

enc = LabelEncoder()

test_set = pd.read_csv('cs.csv')
new_test_set['type'] = enc.fit(new_test_set['type'])

我经历了以下问题。但是大多数都不适合我

How to convert string based data frame to numeric

converting non-numeric to numeric value using Panda libraries

converting non-numeric to numeric value using Panda libraries

3 个答案:

答案 0 :(得分:2)

您需要将字符串值编码为数字值。在这种情况下,我通常要做的是通过非数字功能创建表,所创建的表包含该功能的所有可能值。然后,在训练模型时使用相应特征表中值的索引。

示例:

type_values = ['PAYMENT', 'TRANSFER']

答案 1 :(得分:2)

转化

首先,您需要使用LableEncoder类来转换三列。

编码分类数据

在这里,您将类型作为分类值。为此,您可以使用OneHotEncoder中可用的类sklearn.preprocessing

避免虚拟变量陷阱

然后,您需要通过删除用于表示类型的任何列来避免虚拟变量陷阱。

代码

在这里,我将示例代码供您参考。

import pandas as pd
from sklearn.preprocessing import LabelEncoder, OneHotEncoder

dataset = pd.read_csv('cs.csv')
X = dataset.iloc[:].values

labelencoder = LabelEncoder()

X[:, 0] = labelencoder.fit_transform(X[:, 0])
X[:, 2] = labelencoder.fit_transform(X[:, 2])
X[:, 5] = labelencoder.fit_transform(X[:, 5])

onehotencoder = OneHotEncoder(categorical_features=[0])
X = onehotencoder.fit_transform(X).toarray()

# Avoiding the Dummy Variable Trap
X = X[:, 1:]

答案 2 :(得分:1)

在这种情况下,您可以使用熊猫的数据类型category将字符串映射到索引(请参见categorical data)。因此,不必使用LabelEncoder中的OneHotEncoderscikit-learn

import pandas as pd

df = pd.read_csv('54055554.csv', header=0, dtype={
    'type': 'category',  # <--
    'amount': float,
    'nameOrig': str,
    'oldbalanceOrg': float,
    'newbalanceOrig': float,
    'nameDest': str,
    'oldbalanceDest': float,
    'newbalanceDest': float,
    'isFraud': bool,
    'isFlaggedFraud': bool
})

print(dict(enumerate(df['type'].cat.categories)))
# {0: 'PAYMENT', 1: 'TRANSFER'}

print(list(df['type'].cat.codes))
# [0, 0, 1]

来自CSV的数据:

type, ...
PAYMENT, ...
PAYMENT, ...
TRANSFER, ...