Question

我正在研究大熊猫中5000万行的数据帧。我需要遍历一个列并提取文本的特定部分。该列具有以4或5种模式定义的字符串值。我需要提取文本并替换原始字符串。我正在使用apply函数和regex。这花了我一天的时间来执行。我觉得这是低效的。或者这是正常的吗？是否有一种方法我想让它更快？

Answer 1

这是文档：

更换文字很容易。没有一天不正常。摆脱这篇文章的早期版本中的所有列表。你不需要它们。如果需要更多数据空间，请将列添加到数据框。了解数据类型以缩小数据。

import pandas as pd
df = pd.DataFrame()  #import your data at this step
df['column'].str.extract(regex_thingy_here)

我写的更多，但你把代码记下来了。