如何加快numpy数组/数据框的迭代过程

时间:2019-04-21 12:30:09

标签: python python-3.x pandas dataframe numpy-ndarray

如何加快python中的循环过程?

我有一个数据框对象,包含约1800000条记录。第2列包含文本数据。

使用foreach($chat_list as $friend) { echo "<form action = '' method = 'post'>"; echo "<button id = 'chats'>".$friend."</button><br>"; echo "</form>"; if($_SERVER["REQUEST_METHOD"] == "POST") { echo "<script> location.replace('chat.php?usernames=".$friend."'); </script>"; } } 将数据帧覆盖为一维numpy数组,然后选择第二行(文本行)和所有行。

内部循环中,我正在串联文本列的值并将其存储在变量中。

这很痛苦,要花费大量时间(一个小时内可以迭代100000次)来迭代numpy的1800000条记录。请帮助。我是python编程的新手

code snippet

1 个答案:

答案 0 :(得分:1)

看看您的代码,看来您只是将第二列折叠为一个大文件,我想是文本文件吗?如果是这样,请尝试以下操作:

Name  Value
Car1  Station
Car1  Station
Car1  Station 
Car1  Station
Car2  Hatchback
Car2  Hatchback

在数据帧中使用字符串命令时,需要在它们前面加上“ .str”。 cat() method将pandas.Series中的文本连接到一个Blob中。只要您仅选择数据框的一列,就会返回熊猫系列,该系列的方法与数据框的方法不同。

总代码为:

corpus = DataSet.iloc[:,2].str.cat(sep=", ")

'sep'参数是文本之间的分隔符,您可以将其设置为所需的内容。