我正在尝试在 TPU (https://www.youtube.com/watch?v=s-3zts7FTDA) 上从头开始训练 BERT 语言模型,但我遇到了这个问题:
bwpt = tokenizers.BertWordPieceTokenizer(
vocab_file=None,
add_special_tokens=True,
unk_token='[UNK]',
sep_token='[SEP]',
cls_token='[CLS]',
clean_text=True,
handle_chines_chars=True,
strip_accents=True,
lowercase=True,
wordpieces_prefix='##'
)
运行后:
TypeError Traceback (most recent call last)
<ipython-input-27-8eec5eb54376> in <module>
----> 1 bwpt = tokenizers.BertWordPieceTokenizer(
2 vocab_file=None,
3 add_special_tokens=True,
4 unk_token='[UNK]',
5 sep_token='[SEP]',
TypeError: __init__() got an unexpected keyword argument 'vocab_file'
我在我的电脑上工作,在 Jupyter 笔记本上 张量流 2.4.1 分词器 0.10.1 变形金刚4.3.3
答案 0 :(得分:0)
由于 BertWordPieceTokenizer
中的重命名,这听起来像是 API 不匹配。很可能 vocab_file
已重命名为 vocab
。