Uncategorized – Lemon00 BLOG

在Llama官方中就有实现，只需要修改config文件中的rope_scaling 字段 &#8…

夸克网盘挂载Linux服务器，高速下载文件的实践

https://www.imtrq.com/archives/3167

有趣的实验：大海捞针，在长上下文的论文数据中，在文章的不同位置插入一句在旧金山最好的事情就是坐在多洛雷斯公园…

大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP

实验室有很多GPU，我的训练只需要一点训练资源。训练代码的默认实现使用了deepspeed，如果不指定GPU或…

关于残差链接可以减去梯度消失，优化模型训练过程。很多文章已经写了很多了，国内大多数回答是直接说结论，关于原理并…

本文来自苏神博客：Transformer升级之路：3、从Performer到线性Attention 低秩问…

论文链接简介先说结论，使用精度低于32位浮点的数字格式有很多好处：1. 它们需要更少的内存，所以可以训练和…

作者 Piotr Skalski 原文链接 Preventing Deep Neural Network fr…

SGD SGD，即随机梯度下降（Stochastic Gradient Descent），是深度学习中最常用的…