Question

我试图从pvlib访问的CEC数据库中访问/创建模块名称列表：

import pandas as pd
import pvlib as pv

cecmod = pv.pvsystem.retrieve_sam('CECMod')

我想搜索模块名称列表：

matching = [s for s in dir(cecmod) if "Trina" in s]

dir(cecmod)部分困扰我。我偶然发现了获取数据框列标题列表（键？）的方法，但我觉得dir并不意味着以这种方式使用。为什么dir(pandas.DataFrame)会返回此列标题列表而不是？这是数据帧的使用方式吗？有没有更好的方法来访问这些标题/键？

Answer 1

不，这是非常糟糕的设计。 dir(..)用于列出对象的所有属性。虽然这并不总是可行的，因为有些对象会动态生成属性。

与if "Trina" in s核对也是一个坏主意，因为最终可能会发生搜索字符串属于某个属性。

获取列列表的方法只是使用cecmode.columns。哪个是Index(..)对象，如：

>>> cecmod.columns
Index(['BEoptCA_Default_Module', 'Example_Module', '1Soltech_1STH_215_P',
       '1Soltech_1STH_220_P', '1Soltech_1STH_225_P', '1Soltech_1STH_230_P',
       '1Soltech_1STH_235_WH', '1Soltech_1STH_240_WH', '1Soltech_1STH_245_WH',
       '1Soltech_1STH_FRL_4H_245_M60_BLK',
       ...
       'Zytech_Solar_ZT275P', 'Zytech_Solar_ZT280P', 'Zytech_Solar_ZT285P',
       'Zytech_Solar_ZT290P', 'Zytech_Solar_ZT295P', 'Zytech_Solar_ZT300P',
       'Zytech_Solar_ZT305P', 'Zytech_Solar_ZT310P', 'Zytech_Solar_ZT315P',
       'Zytech_Solar_ZT320P'],
      dtype='object', length=13953)

它是可迭代的，然后我们迭代列名：

matching = [col for col in cecmod.columns if "Trina" in col]

将产生：

>>> [col for col in cecmod.columns if "Trina" in col]
['Trina_Solar_TSM_165DA01', 'Trina_Solar_TSM_170D', 'Trina_Solar_TSM_170DA01', 'Trina_Solar_TSM_170DA03', 'Trina_Solar_TSM_170PA03', 'Trina_Solar_TSM_175D', 'Trina_Solar_TSM_175DA01', 'Trina_Solar_TSM_175DA03', 'Trina_Solar_TSM_175PA03', 'Trina_Solar_TSM_180D', 'Trina_Solar_TSM_180DA01', 'Trina_Solar_TSM_180DA03', 'Trina_Solar_TSM_180PA03', 'Trina_Solar_TSM_185DA01', 'Trina_Solar_TSM_185DA01A', 'Trina_Solar_TSM_185DA01A_05', 'Trina_Solar_TSM_185DA01A_08', 'Trina_Solar_TSM_185DA03', 'Trina_Solar_TSM_185PA03', 'Trina_Solar_TSM_190DA01A', 'Trina_Solar_TSM_190DA01A_05', 'Trina_Solar_TSM_190DA01A_08', 'Trina_Solar_TSM_190DA03', 'Trina_Solar_TSM_190PA03', 'Trina_Solar_TSM_195DA01A', 'Trina_Solar_TSM_195DA01A_05', 'Trina_Solar_TSM_195DA01A_08', 'Trina_Solar_TSM_200DA01A', 'Trina_Solar_TSM_200DA01A_05', 'Trina_Solar_TSM_200DA01A_08', 'Trina_Solar_TSM_205DA01A', 'Trina_Solar_TSM_205DA01A_05', 'Trina_Solar_TSM_205DA01A_08', 'Trina_Solar_TSM_220DA05', 'Trina_Solar_TSM_220PA05', 'Trina_Solar_TSM_220PA05_05', ...

（输出被切断）。

我们还可以与.str.contains('Trina')进行更快速的匹配，例如@DYZ说：

list(cecmod.columns[cecmod.columns.str.contains('Trina')])

这里我们让库进行搜索工作，这通常会胜过Python循环。

或者，使用str.startswith，假设搜索字符串位于列名称的开头：

list(cecmod.columns[cecmod.columns.str.startswith('Trina')])

如果您想要数据框列，而不仅仅是列名，请使用df.filter：

df.filter(like='Trina')

正确访问pandas数据帧的方法

1 个答案: