我刚开始使用Python并且在玩Kaggle Titanic数据时遇到困难。 https://www.kaggle.com/c/titanic/data
这是我在ipython笔记本中输入的内容(train.csv来自上面的kaggle链接中的巨大数据):
import pandas as pd
df = pd.read_csv("C:/fakepath/titanic/data/train.csv")
然后我继续检查“性别”中是否有任何不良数据。柱:
df['Sex'].value_counts()
返回:
male 577
female 314
dtype: int64
df['Gender'] = df['Sex'].map( {'male': 1, 'female': 0} ).astype(int)
这不会产生任何错误。要验证它是否创建了一个名为'性别'整数值:
df
返回:
# PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked Gender
0 1 0 3 Braund, Mr. Owen Harris male 22 1 0 A/5 21171 7.2500 NaN S 1
1 2 1 1 Cumings, Mrs. John Bradley (Florence Briggs Th... female 38 1 0 PC 17599 71.2833 C85 C 0
2 3 1 3 Heikkinen, Miss. Laina female 26 0 0 STON/O2. 3101282 7.9250 NaN S 0
3 4 1 1 Futrelle, Mrs. Jacques Heath (Lily May Peel) female 35 1 0 113803 53.1000 C123 S 0
...成功,性别列附加到结尾,女性为0,男性为1。现在,我创建了一个新的pandas数据帧,它是df数据帧的一个子集。
df2 = df[ ['Survived', 'Pclass', 'Age', 'Gender', 'Embarked'] ]
df2
返回:
Survived Pclass Age Gender Embarked
0 0 3 22 1 S
1 1 1 38 0 C
2 1 3 26 0 S
3 1 1 35 0 S
4 0 3 35 1 S
5 0 3 NaN 1 Q
df2['Embarked'].value_counts()
...表明有3个唯一值(S,C,Q):
S 644
C 168
Q 77
dtype: int64
然而,当我尝试执行我认为与将男/女转换为1/0时相同类型的操作时,我收到错误:
df2['Embarked_int'] = df2['Embarked'].map( {'S': 0, 'C': 1, 'Q': 2}).astype(int)
返回:
ValueError Traceback (most recent call last)
<ipython-input-29-294c08f2fc80> in <module>()
----> 1 df2['Embarked_int'] = df2['Embarked'].map( {'S': 0, 'C': 1, 'Q': 2}).astype(int)
C:\Anaconda\lib\site-packages\pandas\core\generic.pyc in astype(self, dtype, copy, raise_on_error)
2212
2213 mgr = self._data.astype(
-> 2214 dtype=dtype, copy=copy, raise_on_error=raise_on_error)
2215 return self._constructor(mgr).__finalize__(self)
2216
C:\Anaconda\lib\site-packages\pandas\core\internals.pyc in astype(self, dtype, **kwargs)
2500
2501 def astype(self, dtype, **kwargs):
-> 2502 return self.apply('astype', dtype=dtype, **kwargs)
2503
2504 def convert(self, **kwargs):
C:\Anaconda\lib\site-packages\pandas\core\internals.pyc in apply(self, f, axes, filter, do_integrity_check, **kwargs)
2455 copy=align_copy)
2456
-> 2457 applied = getattr(b, f)(**kwargs)
2458
2459 if isinstance(applied, list):
C:\Anaconda\lib\site-packages\pandas\core\internals.pyc in astype(self, dtype, copy, raise_on_error, values)
369 def astype(self, dtype, copy=False, raise_on_error=True, values=None):
370 return self._astype(dtype, copy=copy, raise_on_error=raise_on_error,
--> 371 values=values)
372
373 def _astype(self, dtype, copy=False, raise_on_error=True, values=None,
C:\Anaconda\lib\site-packages\pandas\core\internals.pyc in _astype(self, dtype, copy, raise_on_error, values, klass)
399 if values is None:
400 # _astype_nansafe works fine with 1-d only
--> 401 values = com._astype_nansafe(self.values.ravel(), dtype, copy=True)
402 values = values.reshape(self.values.shape)
403 newb = make_block(values,
C:\Anaconda\lib\site-packages\pandas\core\common.pyc in _astype_nansafe(arr, dtype, copy)
2616
2617 if np.isnan(arr).any():
-> 2618 raise ValueError('Cannot convert NA to integer')
2619 elif arr.dtype == np.object_ and np.issubdtype(dtype.type, np.integer):
2620 # work around NumPy brokenness, #1987
ValueError: Cannot convert NA to integer
我知道为什么我在第二次使用map函数时会出现这个错误而不是第一次?每个value_counts()的Embarked列中没有NAN值。我猜它是一个菜鸟问题:)
答案 0 :(得分:1)
默认情况下value_counts
不会计算NaN
个值,您可以通过执行df['Embarked'].value_counts(dropna=False)
来更改此值。
我查看了您的value_counts
性别列(577 + 314 = 891)与已启用列(644 + 168 + 77 = 889),它们相差2,这意味着您必须有2 {{1} }值。
因此,您要么首先删除它们(使用NaN
),要么使用dropna
填充所需的值。
同样,fillna
是多余的,因为无论如何都要映射到int。
答案 1 :(得分:0)
我刚刚在同一个数据集上遇到过这个问题。删除'astype.int'解决了整个问题。