pandas.to_numeric - 找出它无法解析的字符串

时间:2016-11-24 15:28:48

标签: python pandas data-science data-cleaning

pandas.to_numeric应用于包含表示数字(以及可能的其他不可解析字符串)的字符串的数据帧列会导致出现如下错误消息:

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-66-07383316d7b6> in <module>()
      1 for column in shouldBeNumericColumns:
----> 2     trainData[column] = pandas.to_numeric(trainData[column])

/usr/local/lib/python3.5/site-packages/pandas/tools/util.py in to_numeric(arg, errors)
    113         try:
    114             values = lib.maybe_convert_numeric(values, set(),
--> 115                                                coerce_numeric=coerce_numeric)
    116         except:
    117             if errors == 'raise':

pandas/src/inference.pyx in pandas.lib.maybe_convert_numeric (pandas/lib.c:53558)()

pandas/src/inference.pyx in pandas.lib.maybe_convert_numeric (pandas/lib.c:53344)()

ValueError: Unable to parse string

查看哪个值无法解析会不会有帮助?

2 个答案:

答案 0 :(得分:17)

我认为您可以添加参数errors='coerce'以将错误的非数字值转换为NaN,然后按isnull检查此值并使用boolean indexing

print (df[pd.to_numeric(df.col, errors='coerce').isnull()])

样品:

df = pd.DataFrame({'B':['a','7','8'],
                   'C':[7,8,9]})

print (df)
   B  C
0  a  7
1  7  8
2  8  9

print (df[pd.to_numeric(df.B, errors='coerce').isnull()])
   B  C
0  a  7

或者,如果需要在混合列中找到所有字符串 - 使用字符串值的数字,如果是type则检查值string

df = pd.DataFrame({'B':['a',7, 8],
                   'C':[7,8,9]})

print (df)
   B  C
0  a  7
1  7  8
2  8  9

print (df[df.B.apply(lambda x: isinstance(x, str))])
   B  C
0  a  7

答案 1 :(得分:2)

我想到了同样的事情,而且我不知道是否有更好的方法,但我目前的解决方法是搜索不是数字或句号的字符。这通常会导致问题。有些情况下,多个时期可能会导致问题,但我发现这些情况很少见。

import pandas as pd
import re

non_numeric = re.compile(r'[^\d.]+')

df = pd.DataFrame({'a': [3,2,'NA']})
df.loc[df['a'].str.contains(non_numeric)]