Question

即使在我打印句子时，它也会打印以逗号分隔的字符串数这是我的代码：-

from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
import json

sentence = []
urls = []
labels = []

data = [json.loads(line) for line in open('Sarcasm_Headlines_Dataset.json', 'r')]
for item in data:
    sentence.append(item["headline"])
    urls.append(item['article_link'])
    labels.append(item['is_sarcastic'])
    
print(sentence)
tokenizer = Tokenizer(oov_token="<00V>")
tokenizer = tokenizer.fit_on_texts(sentence)
word_index =tokenizer.word_index

Answer 1

fit_on_texts是就地操作，它将返回None

代替：

tokenizer = tokenizer.fit_on_texts(sentence)

使用：

tokenizer = Tokenizer(oov_token="<00V>")
tokenizer.fit_on_texts(sentence)
word_index =tokenizer.word_index

我收到此错误AttributeError：'NoneType'对象没有属性'word_index'

1 个答案: