张芷铭的个人博客

模型迁移训练

当已经有一个训练好的模型,需要迁移到一个新的下游任务中,模型结构也有改变,应该如何迁移ckpt? 如果要尽可能保留模型原本能力,一般应该是添加模块,所以原则是,增加模块的权重应该全部0初始化,使得修改后的整个ckpt载入后如果接受到原本任务的输入,应该可以产生和原来一样的输出。

比如

💬 评论