我正在做一些NLP,并且我有兴趣通过Python(PyTorch,TensorFlow等)在转换器的每一层提取单个测试令牌的关注权重
是否从头开始编写一个Transformer(任何变压器,如Transformer-XL,OpenAL-GPT,GPT2等),是获得每个变压器层上各个测试令牌的关注权重的唯一方法?有没有更简单的方法可以在Python中执行此任务?更具体地说,可否将Keras变压器用于此目的?如果有人可以向我提供一些示例代码,那就太好了!
谢谢
答案 0 :(得分:0)
您可能正在寻找的API类型是BertViz,它是一种可视化Transformer模型(BERT,GPT-2,XLNet和RoBERTa)中注意力的工具。
此外,Hugginface的transformer API是使用Transformer架构的绝佳来源。 OpenNMT是使用转换器的另一个有用的API。您可以签出documentation。