Question

我正在尝试解析具有很多图纸的Excel文件。每张纸都有一个列，其信息如下（3张纸= 3列）：

ReceivedEmail    OpenedEmail    ClickedURL
aaaa@aaa.com     gggg@aaa.com   aaaa@aaa.com
bbbb@aaa.com     dddd@aaa.com   rrrr@aaa.com
cccc@aaa.com     rrrr@aaa.com
dddd@aaa.com     aaaa@aaa.com
eeee@aaa.com     oooo@aaa.com
ffff@aaa.com
gggg@aaa.com
rrrr@aaa.com
qqqq@aaa.com
oooo@aaa.com

我想要的是一个表，该表保留工作表的第一列，即具有有关ReceivedEmail（我们大量通过电子邮件发送的人员）的所有数据的表。接下来的列应该是后续工作表的每个第一列，但我不想使用重复的电子邮件，而是要使用列表推导来检查ReceivedEmail中是否存在OpenedEmail并给出 1 ，否则给出 0 < / em>。

这是我到目前为止所做的：

import pandas as pd xl = pd.ExcelFile(path_to_file) xl.sheet_names ['ReceivedEmail', 'OpenedEmail', 'ClickedURL'] df = xl.parse(sheet_name=xl.sheet_names[0], header=None) df.rename(columns={df.columns[0]:xl.sheet_names[0]}, inplace=True); df.columns[0] ['ReceivedEmail'] # then I created a buffer dataframe to check next columns df_buffer = xl.parse(sheet_name=xl.sheet_names[1], header=None) df_buffer.rename(columns={df_buffer.columns[0]:xl.sheet_names[1]}, inplace=True);

但是当我像这样运行列表理解时：

df[df_buffer.columns[0]] = [1 if x in df[df.columns[0]] else 0 for x in df_buffer[df_buffer.columns[0]]]

我得到一个错误：

ValueError：值的长度与索引的长度不匹配

有什么线索可以解决此错误或以一种聪明的方式解决问题吗？我正在手动进行操作以查看其是否有效，然后可以稍后进行循环，但是我被错误所困。

最终结果应为：

ReceivedEmail OpenedEmail ClickedURL aaaa@aaa.com 1 1 bbbb@aaa.com 0 0 cccc@aaa.com 0 0 dddd@aaa.com 1 0 eeee@aaa.com 0 0 ffff@aaa.com 0 0 gggg@aaa.com 1 0 rrrr@aaa.com 1 1 qqqq@aaa.com 0 0 oooo@aaa.com 1 0

Answer 1

您可以将read_excel与参数sheetname=None一起使用，以将所有工作表返回到DataFrames的有序字典：

通知：

每张纸都有一列。

dfs = pd.read_excel('file.xlsx', sheetname=None)
print (dfs)
OrderedDict([('ReceivedEmail',               a
0  aaaa@aaa.com
1  bbbb@aaa.com
2  cccc@aaa.com
3  dddd@aaa.com
4  eeee@aaa.com
5  ffff@aaa.com
6  gggg@aaa.com
7  rrrr@aaa.com
8  qqqq@aaa.com
9  oooo@aaa.com), ('OpenedEmail',               a
0  gggg@aaa.com
1  dddd@aaa.com
2  rrrr@aaa.com
3  aaaa@aaa.com
4  oooo@aaa.com), ('ClickedURL',               a
0  aaaa@aaa.com
1  rrrr@aaa.com)])

然后合并在一起，并按子集[]更改顺序，对于第二个检查成员资格的每一列，按isin更改顺序，最后将boolena掩码转换为整数。

cols = list(dfs.keys())
df = pd.concat({k: v.iloc[:, 0] for k, v in dfs.items()}, axis=1)[cols]

df.iloc[:, 1:] = df.iloc[:, 1:].apply(lambda x: df.iloc[:, 0].isin(x)).astype(int)
print (df)
  ReceivedEmail OpenedEmail ClickedURL
0  aaaa@aaa.com           1          1
1  bbbb@aaa.com           0          0
2  cccc@aaa.com           0          0
3  dddd@aaa.com           1          0
4  eeee@aaa.com           0          0
5  ffff@aaa.com           0          0
6  gggg@aaa.com           1          0
7  rrrr@aaa.com           1          1
8  qqqq@aaa.com           0          0
9  oooo@aaa.com           1          0

从Excel多工作表文件进行解析：列之间的列表理解

1 个答案: