Uncategorized
-
在Llama官方中就有实现,只需要修改config文件中的rope_scaling 字段 …
-
https://www.imtrq.com/archives/3167
-
有趣的实验:大海捞针,在长上下文的论文数据中,在文章的不同位置插入一句 在旧金山最好的事情就是坐在多洛雷斯公园…
-
大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP
-
实验室有很多GPU,我的训练只需要一点训练资源。训练代码的默认实现使用了deepspeed,如果不指定GPU或…
-
关于残差链接可以减去梯度消失,优化模型训练过程。很多文章已经写了很多了,国内大多数回答是直接说结论,关于原理并…
-
本文来自 苏神博客 :Transformer升级之路:3、从Performer到线性Attention 低秩问…
-
论文链接 简介 先说结论,使用精度低于32位浮点的数字格式有很多好处:1. 它们需要更少的内存,所以可以训练和…
-
作者 Piotr Skalski 原文链接 Preventing Deep Neural Network fr…
-
SGD SGD,即随机梯度下降(Stochastic Gradient Descent),是深度学习中最常用的…