transformers/docs/source/zh/bertology.md
wwwbai f9c7e6021e
Translate bertlogy.md into Chinese (#34908)
* bertology translation

* Update docs/source/zh/_toctree.yml

Co-authored-by: Steven Liu <59462357+stevhliu@users.noreply.github.com>

* Update docs/source/zh/bertology.md

Co-authored-by: blueingman <15329507600@163.com>

* Update docs/source/zh/bertology.md

Co-authored-by: blueingman <15329507600@163.com>

* Update docs/source/zh/bertology.md

Co-authored-by: Isotr0py <2037008807@qq.com>

* Update docs/source/zh/bertology.md

Co-authored-by: Isotr0py <2037008807@qq.com>

---------

Co-authored-by: Steven Liu <59462357+stevhliu@users.noreply.github.com>
Co-authored-by: blueingman <15329507600@163.com>
Co-authored-by: Isotr0py <2037008807@qq.com>
2024-12-02 11:42:40 -08:00

2.3 KiB
Raw Blame History

基于BERT进行的相关研究BERTology

当前,一个新兴的研究领域正致力于探索大规模 transformer 模型如BERT的内部工作机制一些人称之为“BERTology”。以下是这个领域的一些典型示例

为了助力这一新兴领域的发展我们在BERT/GPT/GPT-2模型中增加了一些附加功能方便人们访问其内部表示这些功能主要借鉴了Paul Michel的杰出工作(https://arxiv.org/abs/1905.10650)

  • 访问BERT/GPT/GPT-2的所有隐藏状态
  • 访问BERT/GPT/GPT-2每个注意力头的所有注意力权重
  • 检索注意力头的输出值和梯度,以便计算头的重要性得分并对头进行剪枝,详情可见论文:https://arxiv.org/abs/1905.10650

为了帮助您理解和使用这些功能,我们添加了一个具体的示例脚本:bertology.py,该脚本可以对一个在 GLUE 数据集上预训练的模型进行信息提取与剪枝。