Question

我目前正在尝试从此网站获取代码：http://netherkingdom.netai.net/pycake.html 然后我有一个python脚本解析出html div标签中的所有代码，最后将div标签之间的文本写入文件。问题是它为文件添加了一堆\ r和\ n。如何避免这种情况或删除\ r和\ n。这是我的代码：

import urllib.request
from html.parser import HTMLParser
import re
page = urllib.request.urlopen('http://netherkingdom.netai.net/pycake.html')
t = page.read()
class MyHTMLParser(HTMLParser):
    def handle_data(self, data):
        print(data)
        f = open('/Users/austinhitt/Desktop/Test.py', 'r')
        t = f.read()
        f = open('/Users/austinhitt/Desktop/Test.py', 'w')
        f.write(t + '\n' + data)
        f.close()
parser = MyHTMLParser()
t = t.decode()
parser.feed(t)

这是它产生的结果文件：

b'
import time as t\r\n
from os import path\r\n
import os\r\n
\r\n
\r\n
\r\n
\r\n
\r\n'

最好我还希望将b'和last'删除。我在Mac上使用Python 3.5.1。

Answer 1

一个简单的解决方案是去除尾随空格：

with open('gash.txt', 'r') as var:
    for line in var:
        line = line.rstrip()
        print(line)

rstrip()优于使用[:-2]切片的优势在于，这对于UNIX样式文件也是安全的。

但是，如果你只想摆脱\r并且它们可能不在行尾，那么str.replace()就是你的朋友：

line = line.replace('\r', '')

如果你有一个字节对象（那是领先的b'），你可以使用以下方法将它转换为本机Python 3字符串：

line = line.decode()

Answer 2

在下面无法使用

删除回车符：

line = line.replace（r'\ r'，''）删除标签页
line = line.replace（r'\ r'，''）

Answer 3

一个简单的解决方案是剥离每一行的最后两个字符：

f = open('yourfile')
for line in f.readlines():
  line = line[:-2] # Removes last two characters (\r\n)
  print(repr(line))

如何从字符串中删除\ n和\ r \ n

3 个答案: