我可能会以所有错误的方式进行操作。 我正在尝试查找约100家英国医院的邮政编码。我有一个Excel电子表格(all_all),列出了英国(14,000)医院/诊所/机构的总数,以及它们的地址和邮政编码。
我拥有这100家医院每年的手术活动数据(脊柱),医院名称重复2817行。
spine.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2818 entries, 0 to 2817
Data columns (total 7 columns):
index_col 2818 non-null float64
fyear 2818 non-null int64
NNAPID 2818 non-null int64
mainspef 2818 non-null int64
Trust 2818 non-null object
complexcount 2818 non-null float64
simplecount 2818 non-null float64
dtypes: float64(3), int64(3), object(1)
memory usage: 154.2+ KB
我认为我可以使用Pandas series map。
进口csv,包括所有14,000家医院。
postcodes_all = pd.read_csv('all_all.csv')
postcodes_all.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14206 entries, 0 to 14205
Data columns (total 3 columns):
Unnamed: 0 14206 non-null int64
Trust_title 14206 non-null object
postcode 14206 non-null object
dtypes: int64(1), object(2)
memory usage: 333.1+ KB
在英国,医院是Trusts,因此在我的数据框(书脊)中,医院名称列= Trust。我正在尝试将此映射到postcodes_all(Trust_title)中的医院条目。
spine['Trust'].map(postcodes_all['Trust_title'])
0 NaN
1 NaN
2 NaN
3 NaN
4 NaN
...
2813 NaN
2814 NaN
2815 NaN
2816 NaN
2817 NaN
Name: Trust, Length: 2818, dtype: object
找不到任何匹配项。医院字段是例如LEEDS TEACHING HOSPITALS NHS TRUST,而同一条目在postcodes_all中。
有没有一种方法可以探索失败的原因?我是一位试图学习python和pandas进行数据分析的医生,所以要进行很多早期工作。
我不确定它是否没有失败,只是我在某个地方定义了错误的数据类型,或者我试图匹配两个本来就不相同的列,并且希望能够检查失败的代码。
很抱歉我赶往诊所时OP的含糊和简短。
更新。
根据乔下面的评论,我简化了事情。在脊柱式csv中,我已定义要用作“信任”的列,而在邮政编码csv中,我已将索引列定义为“信任”。
我现在肯定要比较脊椎医院名称和邮政编码中的索引字段。我现在在“信任”中遇到一个关键错误。
我的代码在这里
import pandas as pd
spine = pd.read_csv('~/Dropbox/Work/NNAP/Spine/Kate_W/kate_spine2.csv', usecols = ['Trust'])
spine.head()
Trust
0 THE WALTON CENTRE NHS FOUNDATION TRUST
1 CAMBRIDGE UNIVERSITY HOSPITALS NHS FOUNDATION ...
2 KING'S COLLEGE HOSPITAL NHS FOUNDATION TRUST
3 LEEDS TEACHING HOSPITALS NHS TRUST
4 NT424
postcodes_all = pd.read_csv('all_all.csv', index_col = 'Trust')
postcodes_all.head()
Unnamed: 0 postcode
Trust
MANCHESTER UNIVERSITY NHS FOUNDATION TRUST 0 M13 9WL
SOUTH TYNESIDE AND SUNDERLAND NHS FOUNDATION TRUST 1 SR4 7TP
WORCESTERSHIRE HEALTH AND CARE NHS TRUST 2 WR5 1JR
SOLENT NHS TRUST 3 SO19 8BR
SHROPSHIRE COMMUNITY HEALTH NHS TRUST 4 SY3 8XL
为确保我使用的是序列而不是数据框,我在代码中添加了“信任”,如下所示。
map1 = spine['Trust'].map(postcodes_all['Trust'])
KeyError Traceback (most recent call last)
~/anaconda3/lib/python3.7/site-packages/pandas/core/indexes/base.py in get_loc(self, key, method, tolerance)
2896 try:
-> 2897 return self._engine.get_loc(key)
2898 except KeyError:
pandas/_libs/index.pyx in pandas._libs.index.IndexEngine.get_loc()
pandas/_libs/index.pyx in pandas._libs.index.IndexEngine.get_loc()
pandas/_libs/hashtable_class_helper.pxi in pandas._libs.hashtable.PyObjectHashTable.get_item()
pandas/_libs/hashtable_class_helper.pxi in pandas._libs.hashtable.PyObjectHashTable.get_item()
KeyError: 'Trust'
During handling of the above exception, another exception occurred:
KeyError Traceback (most recent call last)
<ipython-input-68-921448f7c401> in <module>
----> 1 map1 = spine['Trust'].map(postcodes_all['Trust'])
~/anaconda3/lib/python3.7/site-packages/pandas/core/frame.py in __getitem__(self, key)
2993 if self.columns.nlevels > 1:
2994 return self._getitem_multilevel(key)
-> 2995 indexer = self.columns.get_loc(key)
2996 if is_integer(indexer):
2997 indexer = [indexer]
~/anaconda3/lib/python3.7/site-packages/pandas/core/indexes/base.py in get_loc(self, key, method, tolerance)
2897 return self._engine.get_loc(key)
2898 except KeyError:
-> 2899 return self._engine.get_loc(self._maybe_cast_indexer(key))
2900 indexer = self.get_indexer([key], method=method, tolerance=tolerance)
2901 if indexer.ndim > 1 or indexer.size > 1:
pandas/_libs/index.pyx in pandas._libs.index.IndexEngine.get_loc()
pandas/_libs/index.pyx in pandas._libs.index.IndexEngine.get_loc()
pandas/_libs/hashtable_class_helper.pxi in pandas._libs.hashtable.PyObjectHashTable.get_item()
pandas/_libs/hashtable_class_helper.pxi in pandas._libs.hashtable.PyObjectHashTable.get_item()
KeyError: 'Trust'
我不确定为什么这是不正确的以及关键错误是什么意思。
答案 0 :(得分:1)
获得所有NaN值的原因是因为spine['Trust']
中没有一个值
在postcodes_all['Trust_title']
的索引中找到。
map()
用于用新值替换旧值。
它需要一个键值对来知道要使用哪个新值
替换每个旧值时。
对于系列,
它使用索引作为键,并使用单个系列列作为值。
有关在这种情况下如何调试的提示, 尝试一个简单的例子, 例如您链接的熊猫文档中的一个。 参见下面的示例。
import pandas as pd
s = pd.Series(['cat', 'dog', 'rabbit'])
s
## Output
0 cat
1 dog
2 rabbit
dtype: object
s2 = pd.Series(['carnivore', 'omnivore', 'herbivore'])
s2
## Output
0 carnivore
1 omnivore
2 herbivore
dtype: object
s.map(s2)
## Output
0 NaN
1 NaN
2 NaN
dtype: object
返回 NaN
,
因为熊猫在s
中的值之间找不到任何匹配的值
以及s2
中的索引。
将s2
的索引设置为s
的值将解决此问题。
# Set the values from `s` as the index in `s2`
s2.index = s
s2
## Output
cat carnivore
dog omnivore
rabbit herbivore
dtype: object
s.map(s2)
## Output
0 carnivore
1 omnivore
2 herbivore
dtype: object