Python解析为小写并删除不正常的标点符号

时间:2016-02-29 04:01:33

标签: python parsing python-3.x

import string
remove = dict.fromkeys(map(ord, '\n ' + string.punctuation))

with open('data10.txt', 'r') as f:
for line in f:
    for word in line.split():
        w = f.read().translate(remove)
        print(word.lower())

我在这里有这个代码,由于某种原因,translate(remove)在解析的文件中留下了大量的标点符号。

1 个答案:

答案 0 :(得分:1)

为什么要在for循环中读取整个文件?

试试这个:

import string
remove = dict.fromkeys(map(ord, '\n ' + string.punctuation))

with open('data10.txt', 'r') as f:
    for line in f:
        for word in line.split():
            word = word.translate(remove)
            print(word.lower())

这将打印我们的下层套管和剥离的单词,每行一个。不确定这是不是你想要的。