我试图对已废弃推文的csv文件进行标记。我将csv文件上传为列表
with open('recent_tweet_purex.csv', 'r') as purex:
reader_purex = csv.reader(purex)
purex_list = list(reader_purex)
现在这些推文都在列表中
["b'I miss having someone to talk to all night..'"], ["b'Pergunte-me
qualquer coisa'"], ["b'RT @Caracolinhos13: Tenho a
tl cheia dessa merda de quem vos visitou nas \\xc3\\xbaltimas horas'"],
["b'RT @B24pt: #CarlosHadADream'"], ['b\'"Tudo tem
um fim"\''], ["b'RT @thechgama: stalkear as curtidas \\xc3\\xa9 um caminho
sem volta'"], ["b'Como consegues fumar 3 purexs seguidas? \\xe2\\x80\\x94
Eram 2 purex e mix...'"]
我已导入nltk以及以下软件包
from nltk.tokenize import word_tokenize
import string
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import sent_tokenize
nltk.download('punkt')
我尝试使用
purex_words = word_tokenize(purex_words)
要标记,但我不断收到错误
任何帮助?
答案 0 :(得分:0)
您正在将数组传递给word_tokenize
函数,它期望string or bytes-like object
。如果你用字符串喂它,它会起作用。快速举例。
purex_words = [['I miss having someone to talk to all night..'], ['Pergunte-me qualquer coisa'],
[' RT @ Caracolinhos13:Tenho a tl cheia dessa merda de quem vos visitou nas \ xc3 \ xbaltimas horas'],[' RT @ B24pt:#CarlosHadADream'],[ " Tudo tem um fim"], [" RT @thechgama:stalkear as curtidas \ xc3 \ xa9 um caminho sem volta"],[' Como认为fumar 3 purexs seguidas? \ xe2 \ x80 \ x94 Eram 2 purex e mix ...']]
for sentence in purex_words:
print(word_tokenize(sentence[0])) # this looks ugly to me
您可以在循环句子之前展平列表。 请注意,我在您的列表中添加了一个外部[]
。
flat_list = [item for sublist in purex_words for item in sublist]
for sentence in flat_list:
print(word_tokenize(sentence))
结果看起来像这样。
['I', 'miss', 'having', 'someone', 'to', 'talk', 'to', 'all', 'night..']
['Pergunte-me', 'qualquer', 'coisa']
['RT', '@', 'Caracolinhos13', ':', 'Tenho', 'a', 'tl', 'cheia', 'dessa', 'merda', 'de', 'quem', 'vos', 'visitou', 'nas', '\\xc3\\xbaltimas', 'horas']
['RT', '@', 'B24pt', ':', '#', 'CarlosHadADream']
['Tudo', 'tem', 'um', 'fim']
['RT', '@', 'thechgama', ':', 'stalkear', 'as', 'curtidas', '\\xc3\\xa9', 'um', 'caminho', 'sem', 'volta']
['Como', 'consegues', 'fumar', '3', 'purexs', 'seguidas', '?', '\\xe2\\x80\\x94', 'Eram', '2', 'purex', 'e', 'mix', '...']