Question

我当前正在Python 2.7上运行，并且具有两个数据框x和y。我想使用某种列表理解来遍历两列，并在每列上使用str.encode（'UTF8）摆脱unicode。

这很好用，易于阅读，但是想尝试更快，更有效地使用它。

for col in y:
  if y[col].dtype=='O':
    y[col] = y[col].str.encode("utf-8")

for col in x:
  if x[col].dtype=='O':
    x[col] = x[col].str.encode("utf-8")

我尝试过的其他方法：

1.)[y[col].str.encode("utf-8") for col in y if y[col].dtype=='O' ]

2.)y.columns= [( y[col].str.encode("utf-8") if y[col].dtype=='O' else y[col]) for col in y ]

3.)y.apply(lambda x : (y[col].str.encode("utf-8") for col in y if y[col].dtype=='O'))

2。）和3.）出现值错误和长度不匹配错误

Answer 1

您可以使用select_dtypes获取对象列，然后在每一列上调用apply对其进行编码：

u = df.select_dtypes(include=[object])
df[u.columns] = u.apply(lambda x: x.str.encode('utf-8'))

编写一个小函数来执行此操作，并为每个数据帧调用它。

def encode_df(df):
    u = df.select_dtypes(include=[object])
    df[u.columns] = u.apply(lambda x: x.str.encode('utf-8'))
    return df

x, y = encode_df(x), encode_df(y)

Answer 2

使用此：

import pandas as pd
import numpy as np

df = pd.DataFrame({'a':[1,2,3,4], 'b':[11,12,13,14]})

def f(x):
    return x**2

pd.DataFrame([[f(i) for i in tuple(v)] for k,v in df.iterrows()], columns=df.columns)

遍历两个数据框的列并在utf8中进行str.encode

2 个答案: