应用错误收集

如何在我自己的新数据集中使用BERT预训练嵌入？

时间：2019-06-13 15:37:22

标签： word-embedding transfer-learning

我的数据集和NLP任务与作者预先训练其模型（https://github.com/google-research/bert#pre-training-with-bert）的大型语料库有很大不同，因此我无法直接进行微调。是否有示例代码/ GitHub可以帮助我用自己的数据训练BERT？我希望得到像手套这样的嵌入物。

非常感谢您！

1 个答案:

答案 0 :(得分：0)

是的，您可以像使用extract_features.py脚本进行的其他单词嵌入一样获得BERT嵌入。您可以选择需要输出的层数。用法很简单，您必须在文本文件中每行保存一个句子并将其作为输入传递。输出将是一个JSONL文件，每个令牌提供上下文嵌入。

https://github.com/google-research/bert#using-bert-to-extract-fixed-feature-vectors-like-elmo

提供了脚本与文档的结合使用

如何在Keras中使用我自己的句子嵌入？
如何将Bert嵌入提供给LSTM
如何使用Bert生成嵌入
如何将自己的数据集用于火炬数据集类？
如何在keras中使用多个输入，令牌和预先计算的BERT嵌入？
如何在我自己的新数据集中使用BERT预训练嵌入？
使用CIFAR-100数据集预训练OWN网络
如何制作和使用自己的数据集（无图像数据集）
BERT：如何在BioBERT中使用bert-as-service？
BERT句子嵌入：如何获取句子嵌入向量

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？