我正在尝试编写自定义标记器:
print(re.sub(' ',"\n",(re.sub('\\{|\\}|\\[|\\]|\\\\|\\/|\\\"|\\\'|\\,|\\=|\\(|\\)|\\:|\\||\\-|\\*|\\!|\\;|\\<|\\>|\\,|\\?|//@'," ",str))))
输出:
America
Category
States
of
the
United
States
Category
Southern
United
States
Link
FA
mk
插入了许多新行。我正在尝试编写一个优化的代码来删除所有带有正则表达式的空行而不会进入每个细节。我真的很担心程序的性能。我的线路超过了100亿。所以,我有点担心执行的时间。任何建议?
我正在尝试输出如下:
America
Category
States
of
the
United
States
Category
Southern
United
States
Link
FA
mk
答案 0 :(得分:3)
您可以使用join()
和split()
方法:
print " ".join(your_string.split())
<强>输出:强>
America Category States of the United States Category Southern United States Link FA mk
修改强>
要将每个单词放在不同的行中,请使用"\n"
代替" "
:
print "\n".join(a.split())
答案 1 :(得分:1)
re.sub('\n{2,}', '\n', str)
将删除空行