Question

我正在尝试在 TPU (https://www.youtube.com/watch?v=s-3zts7FTDA) 上从头开始训练 BERT 语言模型，但我遇到了这个问题：

bwpt = tokenizers.BertWordPieceTokenizer(
    vocab_file=None,
    add_special_tokens=True,
    unk_token='[UNK]',
    sep_token='[SEP]',
    cls_token='[CLS]',
    clean_text=True,
    handle_chines_chars=True,
    strip_accents=True,
    lowercase=True,
    wordpieces_prefix='##'
)

运行后：

TypeError Traceback (most recent call last)
<ipython-input-27-8eec5eb54376> in <module>
----> 1 bwpt = tokenizers.BertWordPieceTokenizer(
      2     vocab_file=None,
      3     add_special_tokens=True,
      4     unk_token='[UNK]',
      5     sep_token='[SEP]',

TypeError: __init__() got an unexpected keyword argument 'vocab_file'

我在我的电脑上工作，在 Jupyter 笔记本上张量流 2.4.1 分词器 0.10.1 变形金刚4.3.3

Answer 1

由于 BertWordPieceTokenizer 中的重命名，这听起来像是 API 不匹配。很可能 vocab_file 已重命名为 vocab。

见：https://github.com/huggingface/tokenizers/blob/ee95e7f0cd0defac6f055d02abd103c40d6c7194/bindings/python/py_src/tokenizers/implementations/bert_wordpiece.py#L14-L27

我该如何解决这个问题：tokenizers.BertWordPieceTokenizer 错误

1 个答案: