Python3.x:替换非常大的字符串中的字符的最快方法

时间:2017-06-25 03:08:27

标签: python string python-3.x replace

假设我使用Python3.x有以下非常大的字符串,大小为几GB,长度为+10亿个字符:

string1 = "XYZYXZZXYZZXYZYXYXZYXZYXZYZYZXY.....YY"

考虑到它的长度,这已经需要+ GB才能加载到RAM中。

我想编写一个函数,用X替换每个A,用Y替换B,用Z替换C 。我的目标是尽快做到这一点。当然,这也应该是有效的(例如,可能存在一些我不确定的RAM权衡)。

对我来说最明显的解决方案是使用string模块和string.replace()

import string
def replace_characters(input_string):
    new_string = input_string.replace("X", "A").replace("Y", "B").replace("Z", "C")
    return new_string

foo = replace_characters(string1)
print(foo)

输出

'ABCBACCABCCABCBABACBACBACBCBCAB...BB'

我担心这不是最有效的方法,因为我在这么大的数据结构上同时调用三个函数。

对于这么大的字符串,最有效的解决方案是什么?

1 个答案:

答案 0 :(得分:5)

一种更节省内存的方法,在此过程中不会生成如此多的临时字符串,将使用str.translate

>>> string1 = "XYZYXZZXYZZXYZYXYXZYXZYXZYZYZXY"
>>> string1.translate({ord("X"): "A", ord("Y"): "B", ord("Z"): "C"})
'ABCBACCABCCABCBABACBACBACBCBCAB'

这将只分配一个(在你的情况下特大)字符串。