Question

我有这里给出的数据文件:: https://www.dropbox.com/sh/8lsvigjjpjhdlap/AAD3VpFdBifGMxrq5C-6yhpPa?dl=0

和以下代码::

import pandas as pd       
df = pd.read_table('Best_2018_Table1.txt', sep=r"\s*")

但是有些事情正在破裂，而且大熊猫没有读到这个格式错误的表格::

df.columns
df['PS1gmag']

读取这种space-for-columns类型的文件的最佳方法是什么？

Answer 1

您的正则表达式正在搜索0个或更多空格字符。尝试\ s +以确保至少有1个空格。

Answer 2

你的文件有固定的宽度字段（标题除外），应该这样读。

使用空格作为分隔符将不起作用，因为某些字段为空并将数据放在错误的列中，例如：

2MASS_J00492677-0635467     M8.5         8.5 null                   M8.5
WISEPC_J004928.48+044100.1  null             L9                19.  L9
WISE_J004945.61+215120.0    null             T8.5              28.5 T8.5
SIPS_J0050-1538             L1:         11.  L0.5              10.5 L1:

会变成：

2MASS_J00492677-0635467     M8.5        8.5   null  M8.5
WISEPC_J004928.48+044100.1  null        L9    19.   L9
WISE_J004945.61+215120.0    null        T8.5  28.5  T8.5
SIPS_J0050-1538             L1:         11.   L0.5  10.5  L1:

熊猫没有正确读取文件

2 个答案: