如何只获得英文字符

时间:2018-12-01 19:11:25

标签: python string python-3.x split

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
import string
import json,threading 

def cleanInput(input):
    input=re.sub(' +'," ",input)
    input=re.sub('\[[0-9]*\]',"",input)
    input=re.sub('\n+'," ",input)
    input=bytes(input,'UTF-8')
    input=input.decode('ascii','ignore')
    cleanInput=[]
    print(input)
    input=input.split(" ")
    for i in input:
        i.strip(string.punctuation)
        if len(i)>1 or (i.lower()=='a' or i.lower()=='i'):
            cleanInput.append(i)
    return cleanInput

我遇到的问题是在input=input.split(" ")处出现以下错误AttributeError: 'list' object has no attribute 'split',因此 我打印后,看起来像是没有方括号的普通文本(即[]), 我在不同的大文本上尝试过它给出了相同的错误 我该如何解决,所以我只能得到英语单词'i','a',而没有其他任何语言字符或符号或\n

0 个答案:

没有答案