from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
import string
import json,threading
def cleanInput(input):
input=re.sub(' +'," ",input)
input=re.sub('\[[0-9]*\]',"",input)
input=re.sub('\n+'," ",input)
input=bytes(input,'UTF-8')
input=input.decode('ascii','ignore')
cleanInput=[]
print(input)
input=input.split(" ")
for i in input:
i.strip(string.punctuation)
if len(i)>1 or (i.lower()=='a' or i.lower()=='i'):
cleanInput.append(i)
return cleanInput
我遇到的问题是在input=input.split(" ")
处出现以下错误AttributeError: 'list' object has no attribute 'split'
,因此
我打印后,看起来像是没有方括号的普通文本(即[]),
我在不同的大文本上尝试过它给出了相同的错误
我该如何解决,所以我只能得到英语单词'i','a',而没有其他任何语言字符或符号或\n
。