我该如何解决这个问题:tokenizers.BertWordPieceTokenizer 错误

时间:2021-03-09 02:54:03

标签: machine-learning nlp bert-language-model

我正在尝试在 TPU (https://www.youtube.com/watch?v=s-3zts7FTDA) 上从头开始训练 BERT 语言模型,但我遇到了这个问题:

bwpt = tokenizers.BertWordPieceTokenizer(
    vocab_file=None,
    add_special_tokens=True,
    unk_token='[UNK]',
    sep_token='[SEP]',
    cls_token='[CLS]',
    clean_text=True,
    handle_chines_chars=True,
    strip_accents=True,
    lowercase=True,
    wordpieces_prefix='##'
)

运行后:

TypeError Traceback (most recent call last)
<ipython-input-27-8eec5eb54376> in <module>
----> 1 bwpt = tokenizers.BertWordPieceTokenizer(
      2     vocab_file=None,
      3     add_special_tokens=True,
      4     unk_token='[UNK]',
      5     sep_token='[SEP]',

TypeError: __init__() got an unexpected keyword argument 'vocab_file' 

我在我的电脑上工作,在 Jupyter 笔记本上 张量流 2.4.1 分词器 0.10.1 变形金刚4.3.3

1 个答案:

答案 0 :(得分:0)

由于 BertWordPieceTokenizer 中的重命名,这听起来像是 API 不匹配。很可能 vocab_file 已重命名为 vocab

见:https://github.com/huggingface/tokenizers/blob/ee95e7f0cd0defac6f055d02abd103c40d6c7194/bindings/python/py_src/tokenizers/implementations/bert_wordpiece.py#L14-L27