我正在研究大熊猫中5000万行的数据帧。我需要遍历一个列并提取文本的特定部分。该列具有以4或5种模式定义的字符串值。我需要提取文本并替换原始字符串。我正在使用apply函数和regex。这花了我一天的时间来执行。我觉得这是低效的。或者这是正常的吗?是否有一种方法我想让它更快?
答案 0 :(得分:0)
这是文档:
http://pandas.pydata.org/pandas-docs/stable/indexing.html
http://pandas.pydata.org/pandas-docs/stable/text.html#extracting-substrings
更换文字很容易。没有一天不正常。摆脱这篇文章的早期版本中的所有列表。你不需要它们。如果需要更多数据空间,请将列添加到数据框。了解数据类型以缩小数据。
import pandas as pd
df = pd.DataFrame() #import your data at this step
df['column'].str.extract(regex_thingy_here)
我写的更多,但你把代码记下来了。