我在某种程度上已经读了很多论文,这些论文都涉及预测句子中遗漏的单词。我真正想要的是创建一个模型,从不完整的句子中建议一个单词。
Example:
Incomplete Sentence :
I bought an ___________ because its rainy.
Suggested Words:
umbrella
soup
jacket
从我读过的日记中,他们利用了Microsoft Sentence Completion Dataset来预测句子中缺少的单词。
Example :
Incomplete Sentence :
Im sad because you are __________
Missing Word Options:
a) crying
b) happy
c) pretty
d) sad
e) bad
我不想从选项列表中预测缺少的单词。我想建议一个不完整句子中的单词列表。可行吗请指教我,因为我真的很困惑。我可以使用什么最新模型来建议不完整句子中的单词列表(语义上连贯)?
训练数据集中是否必须包含建议单词列表作为输出?
答案 0 :(得分:2)
这正是BERT模型的训练方式:掩盖句子中的一些随机单词,并使您的网络预测这些单词。是的,这是可行的。而且,没有必要将建议单词的列表作为训练输入。但是,这些建议的单词应该成为训练该BERT的整体词汇的一部分。
我改编了this answer以显示完成功能的工作方式。
# install this package to obtain the pretrained model
# ! pip install -U pytorch-pretrained-bert
import torch
from pytorch_pretrained_bert import BertTokenizer, BertForMaskedLM
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertForMaskedLM.from_pretrained('bert-base-uncased')
model.eval(); # turning off the dropout
def fill_the_gaps(text):
text = '[CLS] ' + text + ' [SEP]'
tokenized_text = tokenizer.tokenize(text)
indexed_tokens = tokenizer.convert_tokens_to_ids(tokenized_text)
segments_ids = [0] * len(tokenized_text)
tokens_tensor = torch.tensor([indexed_tokens])
segments_tensors = torch.tensor([segments_ids])
with torch.no_grad():
predictions = model(tokens_tensor, segments_tensors)
results = []
for i, t in enumerate(tokenized_text):
if t == '[MASK]':
predicted_index = torch.argmax(predictions[0, i]).item()
predicted_token = tokenizer.convert_ids_to_tokens([predicted_index])[0]
results.append(predicted_token)
return results
print(fill_the_gaps(text = 'I bought an [MASK] because its rainy .'))
print(fill_the_gaps(text = 'Im sad because you are [MASK] .'))
print(fill_the_gaps(text = 'Im worried because you are [MASK] .'))
print(fill_the_gaps(text = 'Im [MASK] because you are [MASK] .'))
[MASK]
符号表示缺少的单词(可以有任意数量)。 [CLS]
和[SEP]
是BERT特定的特殊令牌。这些特定印刷品的输出是
['umbrella']
['here']
['worried']
['here', 'here']
重复并不奇怪-变压器NN通常擅长复制单词。从语义的角度来看,这些对称的延续看起来确实很有可能。
此外,如果不是遗漏的随机词,而是恰好最后一个词(或最后几个词),则可以使用任何语言模型(例如,另一种著名的SOTA语言模型GPT-2)来完成这句话。