将一个字符串分成块,在Python中保持整个单词

时间:2014-01-06 07:52:46

标签: python

我想将一个长字符串(例如,500个字符)分成更小的块(比如说,每个字符数= 100个字符),但保持整个单词。也就是说,块应该尽可能接近100个字符,但不应该切断整个单词。我的第一反应是分割字符串并循环遍历每个单词,将每个单词连接到缓冲区直到达到限制,然后重新开始每个单元格,但我认为必须有一个更有效的方法。

谢谢!

3 个答案:

答案 0 :(得分:5)

您可以使用python中的textwrap模块执行此操作:

s = "Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa. Cum sociis natoque penatibus et magnis dis parturient montes, nascetur ridiculus mus. Donec quam felis, ultricies nec, pellentesque eu, pretium quis, sem. Nulla consequat massa quis enim. Donec pede justo, fringilla vel, aliquet nec, vulputate eget, arcu. In enim justo, rhoncus ut, imperdiet a, venenatis vitae, justo. Nullam dictum felis eu pede mollis pretium. Integer tincidunt. Cras dapibus. Vivamus elementum semper nisi. Aenean vulputate eleifend tellus. Aenean leo ligula, porttitor eu,"

import textwrap
var = textwrap.wrap(s, 100)
for line in var:
    print(len(line))

print(var)

您可以了解more about it here

Live Demo

答案 1 :(得分:1)

import textwrap

long_string = 'Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa. Cum sociis natoque penatibus et magnis dis parturient montes, nascetur ridiculus mus. Donec quam felis, ultricies nec, pellentesque eu, pretium quis, sem. Nulla consequat massa quis enim. Donec pede justo, fringilla vel, aliquet nec, vulputate eget, arcu. In enim justo, rhoncus ut, imperdiet a, venenatis vitae, justo. Nullam dictum felis eu pede mollis pretium. Integer tincidunt. Cras dapibus. Vivamus elementum semper nisi. Aenean vulputate eleifend tellus. Aenean leo ligula, porttitor eu,'
string_list = textwrap.wrap(long_string,100, drop_whitespace = False)

for line in string_list:
    print(line)

print(string_list)

输出:

['Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean ', 'massa. Cum sociis natoque penatibus et magnis dis parturient montes, nascetur ridiculus mus. Donec ', 'quam felis, ultricies nec, pellentesque eu, pretium quis, sem. Nulla consequat massa quis enim. ', 'Donec pede justo, fringilla vel, aliquet nec, vulputate eget, arcu. In enim justo, rhoncus ut, ', 'imperdiet a, venenatis vitae, justo. Nullam dictum felis eu pede mollis pretium. Integer tincidunt. ', 'Cras dapibus. Vivamus elementum semper nisi. Aenean vulputate eleifend tellus. Aenean leo ligula, ', 'porttitor eu,']

使用drop_whitespace = False保持原始间距

查看其他选项here

答案 2 :(得分:0)

如果没有其他导入,请尝试:

s = "Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa. Cum sociis natoque penatibus et magnis dis parturient montes, nascetur ridiculus mus. Donec quam felis, ultricies nec, pellentesque eu, pretium quis, sem. Nulla consequat massa quis enim. Donec pede justo, fringilla vel, aliquet nec, vulputate eget, arcu. In enim justo, rhoncus ut, imperdiet a, venenatis vitae, justo. Nullam dictum felis eu pede mollis pretium. Integer tincidunt. Cras dapibus. Vivamus elementum semper nisi. Aenean vulputate eleifend tellus. Aenean leo ligula, porttitor eu,"

out = []; leftover = ""
for i in map(''.join, zip(*[iter(s)]*100)):
    i = leftover+i
    toappend, _ , leftover = i.rpartition(" ")
    if len(toappend) > 100:
        leftover = toappend[99:]
        toappend = toappend[:99]
    out.append(toappend)

print out

[OUT]:

  

['Lorem ipsum dolor sit amet,consectetuer adipiscing elit。 Aenean   Philao ligula eget dolor。 Aenean','马萨。 Cum sociis natoque   penatibus et magnis dis parturient montes,nascetur ridiculus mus。   Donec','quam felis,ultricies nec,pellentesque eu,pretium quis,   SEM。 Nulla consequat massa quis enim。唐','ecpede justo,fringilla   vel,aliquet nec,vulputate eget,arcu。在enim justo,rhoncus ut,   imperdiet','a,venenatis vitae,justo。 Nullam dictum felis eu pede   mollis pretium。整数tincidunt。 Cras','dapibus。 Vivamus elementum   semper nisi。 Aenean vulputate eleifend tellus。 Aenean leo ligula,   portti']