我想通过插入[CLS]和[SEP]标记使文本对于BERT嵌入可读。我标记了我的文本,所以我有一个列表,其中每个单词和标点符号都作为元素,但是,我不知道在每次出现“。”之后如何精确地添加元素。在我的文字中。
有人知道我能做什么吗?还是您知道是否存在准备BERT可读文本的东西?
答案 0 :(得分:0)
我认为这可以回答您的问题:
https://github.com/google-research/bert#tokenization
如前所述,您可以在run_classifier.py
和extract_features.py
中看到他们的工作方式。
但是,您也可以使用正则表达式(regex)完成所需的操作。在python中,这看起来像:
import re
regex = r"[.]"
test_str = "Hello . BERT . Goodbye ."
subst = ". [SEP]"
result = re.sub(regex, subst, test_str)
if result:
print (result)