标记列表列表

时间:2018-02-08 04:45:06

标签: python csv twitter

我试图对已废弃推文的csv文件进行标记。我将csv文件上传为列表

with open('recent_tweet_purex.csv', 'r') as purex:
reader_purex = csv.reader(purex)
purex_list = list(reader_purex)

现在这些推文都在列表中

["b'I miss having someone to talk to all night..'"], ["b'Pergunte-me 
qualquer coisa'"], ["b'RT @Caracolinhos13: Tenho a 
tl cheia dessa merda de quem vos visitou nas \\xc3\\xbaltimas horas'"], 
["b'RT @B24pt: #CarlosHadADream'"], ['b\'"Tudo tem 
um fim"\''], ["b'RT @thechgama: stalkear as curtidas \\xc3\\xa9 um caminho 
sem volta'"], ["b'Como consegues fumar 3 purexs seguidas? \\xe2\\x80\\x94 
Eram 2 purex e mix...'"]

我已导入nltk以及以下软件包

 from nltk.tokenize import word_tokenize
 import string
 from nltk.corpus import stopwords
 from nltk.stem import WordNetLemmatizer
 from nltk.tokenize import sent_tokenize
 nltk.download('punkt')

我尝试使用

 purex_words = word_tokenize(purex_words)

要标记,但我不断收到错误

任何帮助?

1 个答案:

答案 0 :(得分:0)

您正在将数组传递给word_tokenize函数,它期望string or bytes-like object。如果你用字符串喂它,它会起作用。快速举例。

purex_words = [['I miss having someone to talk to all night..'], ['Pergunte-me qualquer coisa'],

[' RT @ Caracolinhos13:Tenho a tl cheia dessa merda de quem vos visitou nas \ xc3 \ xbaltimas horas'],[' RT @ B24pt:#CarlosHadADream'],[ " Tudo tem um fim"], [" RT @thechgama:stalkear as curtidas \ xc3 \ xa9 um caminho sem volta"],[' Como认为fumar 3 purexs seguidas? \ xe2 \ x80 \ x94 Eram 2 purex e mix ...']]

for sentence in purex_words:
    print(word_tokenize(sentence[0])) # this looks ugly to me

您可以在循环句子之前展平列表。 请注意,我在您的列表中添加了一个外部[]

flat_list = [item for sublist in purex_words for item in sublist]
for sentence in flat_list:
    print(word_tokenize(sentence))

结果看起来像这样。

['I', 'miss', 'having', 'someone', 'to', 'talk', 'to', 'all', 'night..']
['Pergunte-me', 'qualquer', 'coisa']
['RT', '@', 'Caracolinhos13', ':', 'Tenho', 'a', 'tl', 'cheia', 'dessa', 'merda', 'de', 'quem', 'vos', 'visitou', 'nas', '\\xc3\\xbaltimas', 'horas']
['RT', '@', 'B24pt', ':', '#', 'CarlosHadADream']
['Tudo', 'tem', 'um', 'fim']
['RT', '@', 'thechgama', ':', 'stalkear', 'as', 'curtidas', '\\xc3\\xa9', 'um', 'caminho', 'sem', 'volta']
['Como', 'consegues', 'fumar', '3', 'purexs', 'seguidas', '?', '\\xe2\\x80\\x94', 'Eram', '2', 'purex', 'e', 'mix', '...']