日本令牌生成器的HuggingFace

时间:2020-07-12 11:49:55

标签: python cjk bert-language-model

我最近根据源对以下代码进行了测试: https://github.com/cl-tohoku/bert-japanese/blob/master/masked_lm_example.ipynb

import torch 
from transformers.tokenization_bert_japanese import BertJapaneseTokenizer
from transformers.modeling_bert import BertForMaskedLM

tokenizer = BertJapaneseTokenizer.from_pretrained('cl-tohoku/bert-base-japanese-whole-word-masking')
model = BertForMaskedLM.from_pretrained('cl-tohoku/bert-base-japanese-whole-word-masking')

input_ids = tokenizer.encode(f'''
    青葉山で{tokenizer.mask_token}の研究をしています。
''', return_tensors='pt')

当我尝试对其进行编码时,收到诸如以下的错误:

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-29-f8582275f4db> in <module>
      1 input_ids = tokenizer.encode(f'''
      2     青葉山で{tokenizer.mask_token}の研究をしています。
----> 3 ''', return_tensors='pt')

~/.pyenv/versions/3.7.0/envs/personal/lib/python3.7/site-packages/transformers/tokenization_utils_base.py in encode(self, text, text_pair, add_special_tokens, padding, truncation, max_length, stride, return_tensors, **kwargs)
   1428             stride=stride,
   1429             return_tensors=return_tensors,
-> 1430             **kwargs,
   1431         )
   1432 

~/.pyenv/versions/3.7.0/envs/personal/lib/python3.7/site-packages/transformers/tokenization_utils_base.py in encode_plus(self, text, text_pair, add_special_tokens, padding, truncation, max_length, stride, is_pretokenized, pad_to_multiple_of, return_tensors, return_token_type_ids, return_attention_mask, return_overflowing_tokens, return_special_tokens_mask, return_offsets_mapping, return_length, verbose, **kwargs)
   1740             return_length=return_length,
   1741             verbose=verbose,
-> 1742             **kwargs,
   1743         )
   1744 

~/.pyenv/versions/3.7.0/envs/personal/lib/python3.7/site-packages/transformers/tokenization_utils.py in _encode_plus(self, text, text_pair, add_special_tokens, padding_strategy, truncation_strategy, max_length, stride, is_pretokenized, pad_to_multiple_of, return_tensors, return_token_type_ids, return_attention_mask, return_overflowing_tokens, return_special_tokens_mask, return_offsets_mapping, return_length, verbose, **kwargs)
    452             )
    453 
--> 454         first_ids = get_input_ids(text)
    455         second_ids = get_input_ids(text_pair) if text_pair is not None else None
    456 

~/.pyenv/versions/3.7.0/envs/personal/lib/python3.7/site-packages/transformers/tokenization_utils.py in get_input_ids(text)
    423         def get_input_ids(text):
    424             if isinstance(text, str):
--> 425                 tokens = self.tokenize(text, **kwargs)
    426                 return self.convert_tokens_to_ids(tokens)
    427             elif isinstance(text, (list, tuple)) and len(text) > 0 and isinstance(text[0], str):

~/.pyenv/versions/3.7.0/envs/personal/lib/python3.7/site-packages/transformers/tokenization_utils.py in tokenize(self, text, **kwargs)
    362 
    363         no_split_token = self.unique_no_split_tokens
--> 364         tokenized_text = split_on_tokens(no_split_token, text)
    365         return tokenized_text
    366 

~/.pyenv/versions/3.7.0/envs/personal/lib/python3.7/site-packages/transformers/tokenization_utils.py in split_on_tokens(tok_list, text)
    356                     (
    357                         self._tokenize(token) if token not in self.unique_no_split_tokens else [token]
--> 358                         for token in tokenized_text
    359                     )
    360                 )

~/.pyenv/versions/3.7.0/envs/personal/lib/python3.7/site-packages/transformers/tokenization_utils.py in <genexpr>(.0)
    356                     (
    357                         self._tokenize(token) if token not in self.unique_no_split_tokens else [token]
--> 358                         for token in tokenized_text
    359                     )
    360                 )

~/.pyenv/versions/3.7.0/envs/personal/lib/python3.7/site-packages/transformers/tokenization_bert_japanese.py in _tokenize(self, text)
    153     def _tokenize(self, text):
    154         if self.do_word_tokenize:
--> 155             tokens = self.word_tokenizer.tokenize(text, never_split=self.all_special_tokens)
    156         else:
    157             tokens = [text]

~/.pyenv/versions/3.7.0/envs/personal/lib/python3.7/site-packages/transformers/tokenization_bert_japanese.py in tokenize(self, text, never_split, **kwargs)
    205                 break
    206 
--> 207             token, _ = line.split("\t")
    208             token_start = text.index(token, cursor)
    209             token_end = token_start + len(token)

ValueError: too many values to unpack (expected 2)

有人曾经历过吗?我尝试了很多不同的方式,并引用了许多帖子,但是所有帖子都使用相同的方法,并且没有任何解释,我只是想测试多种语言,其他语言似乎可以正常工作,但不适用于日语,我也不知道为什么。

2 个答案:

答案 0 :(得分:2)

我是mecab-python3的维护者。变形金刚依赖于1.0之前版本中的捆绑字典,该字典由于已过时而被删除。我将很快在一个发行版中将其添加为一个选项,但是与此同时,您可以安装旧版本。

由vivasra发布的命令不起作用,因为它指定了不存在的其他程序包的版本(请注意,程序包名称中没有“ 3”)。您可以使用:

pip install mecab-python3=0.996.5

如果您仍然遇到问题,请打开一个问题on Github

答案 1 :(得分:0)

快速检查一下,对我来说没有错误,也许您遇到了一些版本问题?

从外观上看,BertJapaneseTokenizer发生错误,因此您所拥有的令牌生成器(mecab?)版本可能与您的环境不兼容。

我的环境中的mecab-python:

!pip list | grep mecab
#mecab-python3  0.996.5

也许您可以创建一个新环境或尝试以下环境(或其他可用版本):

!pip install 'mecab-python3==0.996.5' --force-reinstall

编辑:修复了环境设置(感谢@ polm23)

相关问题