如何对列表中所有出现的元素执行操作?

时间:2019-07-08 11:38:49

标签: python list nlp

我想通过插入[CLS]和[SEP]标记使文本对于BERT嵌入可读。我标记了我的文本,所以我有一个列表,其中每个单词和标点符号都作为元素,但是,我不知道在每次出现“。”之后如何精确地添加元素。在我的文字中。

有人知道我能做什么吗?还是您知道是否存在准备BERT可读文本的东西?

1 个答案:

答案 0 :(得分:0)

我认为这可以回答您的问题:

https://github.com/google-research/bert#tokenization

如前所述,您可以在run_classifier.pyextract_features.py中看到他们的工作方式。

但是,您也可以使用正则表达式(regex)完成所需的操作。在python中,这看起来像:

import re

regex = r"[.]"
test_str = "Hello . BERT . Goodbye ."
subst = ". [SEP]"

result = re.sub(regex, subst, test_str)

if result:
    print (result)