Question

我想通过插入[CLS]和[SEP]标记使文本对于BERT嵌入可读。我标记了我的文本，所以我有一个列表，其中每个单词和标点符号都作为元素，但是，我不知道在每次出现“。”之后如何精确地添加元素。在我的文字中。

有人知道我能做什么吗？还是您知道是否存在准备BERT可读文本的东西？

Answer 1

我认为这可以回答您的问题：

https://github.com/google-research/bert#tokenization

如前所述，您可以在run_classifier.py和extract_features.py中看到他们的工作方式。

但是，您也可以使用正则表达式（regex）完成所需的操作。在python中，这看起来像：

import re

regex = r"[.]"
test_str = "Hello . BERT . Goodbye ."
subst = ". [SEP]"

result = re.sub(regex, subst, test_str)

if result:
    print (result)

如何对列表中所有出现的元素执行操作？

1 个答案: