我想将一个长字符串(例如,500个字符)分成更小的块(比如说,每个字符数= 100个字符),但保持整个单词。也就是说,块应该尽可能接近100个字符,但不应该切断整个单词。我的第一反应是分割字符串并循环遍历每个单词,将每个单词连接到缓冲区直到达到限制,然后重新开始每个单元格,但我认为必须有一个更有效的方法。
谢谢!
答案 0 :(得分:5)
您可以使用python中的textwrap
模块执行此操作:
s = "Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa. Cum sociis natoque penatibus et magnis dis parturient montes, nascetur ridiculus mus. Donec quam felis, ultricies nec, pellentesque eu, pretium quis, sem. Nulla consequat massa quis enim. Donec pede justo, fringilla vel, aliquet nec, vulputate eget, arcu. In enim justo, rhoncus ut, imperdiet a, venenatis vitae, justo. Nullam dictum felis eu pede mollis pretium. Integer tincidunt. Cras dapibus. Vivamus elementum semper nisi. Aenean vulputate eleifend tellus. Aenean leo ligula, porttitor eu,"
import textwrap
var = textwrap.wrap(s, 100)
for line in var:
print(len(line))
print(var)
您可以了解more about it here。
答案 1 :(得分:1)
import textwrap
long_string = 'Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa. Cum sociis natoque penatibus et magnis dis parturient montes, nascetur ridiculus mus. Donec quam felis, ultricies nec, pellentesque eu, pretium quis, sem. Nulla consequat massa quis enim. Donec pede justo, fringilla vel, aliquet nec, vulputate eget, arcu. In enim justo, rhoncus ut, imperdiet a, venenatis vitae, justo. Nullam dictum felis eu pede mollis pretium. Integer tincidunt. Cras dapibus. Vivamus elementum semper nisi. Aenean vulputate eleifend tellus. Aenean leo ligula, porttitor eu,'
string_list = textwrap.wrap(long_string,100, drop_whitespace = False)
for line in string_list:
print(line)
print(string_list)
输出:
['Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean ', 'massa. Cum sociis natoque penatibus et magnis dis parturient montes, nascetur ridiculus mus. Donec ', 'quam felis, ultricies nec, pellentesque eu, pretium quis, sem. Nulla consequat massa quis enim. ', 'Donec pede justo, fringilla vel, aliquet nec, vulputate eget, arcu. In enim justo, rhoncus ut, ', 'imperdiet a, venenatis vitae, justo. Nullam dictum felis eu pede mollis pretium. Integer tincidunt. ', 'Cras dapibus. Vivamus elementum semper nisi. Aenean vulputate eleifend tellus. Aenean leo ligula, ', 'porttitor eu,']
使用drop_whitespace = False保持原始间距
查看其他选项here
答案 2 :(得分:0)
如果没有其他导入,请尝试:
s = "Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa. Cum sociis natoque penatibus et magnis dis parturient montes, nascetur ridiculus mus. Donec quam felis, ultricies nec, pellentesque eu, pretium quis, sem. Nulla consequat massa quis enim. Donec pede justo, fringilla vel, aliquet nec, vulputate eget, arcu. In enim justo, rhoncus ut, imperdiet a, venenatis vitae, justo. Nullam dictum felis eu pede mollis pretium. Integer tincidunt. Cras dapibus. Vivamus elementum semper nisi. Aenean vulputate eleifend tellus. Aenean leo ligula, porttitor eu,"
out = []; leftover = ""
for i in map(''.join, zip(*[iter(s)]*100)):
i = leftover+i
toappend, _ , leftover = i.rpartition(" ")
if len(toappend) > 100:
leftover = toappend[99:]
toappend = toappend[:99]
out.append(toappend)
print out
[OUT]:
['Lorem ipsum dolor sit amet,consectetuer adipiscing elit。 Aenean Philao ligula eget dolor。 Aenean','马萨。 Cum sociis natoque penatibus et magnis dis parturient montes,nascetur ridiculus mus。 Donec','quam felis,ultricies nec,pellentesque eu,pretium quis, SEM。 Nulla consequat massa quis enim。唐','ecpede justo,fringilla vel,aliquet nec,vulputate eget,arcu。在enim justo,rhoncus ut, imperdiet','a,venenatis vitae,justo。 Nullam dictum felis eu pede mollis pretium。整数tincidunt。 Cras','dapibus。 Vivamus elementum semper nisi。 Aenean vulputate eleifend tellus。 Aenean leo ligula, portti']