Double-Win-Quant 论文精读 Double-Win Quant 论文精读今天读这篇论文: Double-Win Quant: Aggressively Winning Robustness of Quantized Deep Neural Networks via Random Precision Training and Inference 官方代码在这里: GitHub Rice-Eic Double-Win-Quant 2024-07-10 论文精读 #论文精读 #模型量化
CPT Cyclic Precision Training 论文精读 CPT cyclic precision training 论文精读今天精读这篇论文:CPT: EFFICIENT DEEP NEURAL NETWORK TRAINING VIA CYCLIC PRECISION官方代码在这里:github-gatech-eic-cpt Abstract低精度深度神经网络(DNN)训练由于减少精度是提高DNN训练时间/能量效率的最有效手段之一而受到了极大的关注。 2024-07-10 论文精读 #论文精读 #模型量化
LoRA论文精读 LoRA论文精读我们详细看看这篇论文:Low-Rank Adaptation of Large Language Models 这篇论文是2021年十月由Microsoft发表的。 Abstract自然语言处理的重要范式包括在通用领域数据上进行大规模预训练,并适应特定任务或领域。随着我们预训练更大的模型,全量微调(重新训练所有模型参数)变得越来越不可行。以GPT-3 175B为例——部署每个具有1 2024-07-09 论文精读 #论文精读 #LoRA
大模型量化技术的原理和代码实现 大模型量化技术的原理大模型量化,简单而言,就是对大模型中的参数(比如权重参数)转换数据类型,比如从16位浮点型转为8位整型,转换后数据只占用一般存储空间且推理加快,但模型性能损失不大。 目前主要有两个权重量化技术: PTQ (Post-Training Quantization)训练后量化:先训练好模型,再把模型权重转为较低精度,而无需任何重新训练。PTQ方法易于实施,但是会导致潜在性能下降。 2024-07-09 ML基础知识 > 模型量化 #模型量化
LLM-QAT论文精读 LLM-QAT论文精读今天我们精读这篇论文:LLM-QAT: Data-Free Quantization Aware Training for Large Language Models 这篇论文实现了对通用大模型的量化,大模型的量化是指:用更少的信息表示数据,同时不损失太多准确性。通常的做法是将模型的一些参数(如权重)转换并存储为更少比特的数据类型。例如,将权重参数由16位浮点数转为8位整数, 2024-07-09 论文精读 #论文精读 #模型量化
优化器介绍II——动量和自适应学习率 优化器介绍II——动量&自适应学习率在优化器篇章1 中,BGD/SGD/MBGD三种梯度下降方法的学习率是不变了,是提前设置好的超参数。这时就面临一个问题,如何设置初始学习率?因为使用不同的batch size时学习率最好有所变化。还有学习率在训练时不能自主调节吗(自适应学习率)?下面介绍的这几种优化器,会使用动态调节的学习率。 什么是动量一阶矩/二阶矩/一阶动量/二阶动量首先简单介绍什么 2024-07-08 ML基础知识 > 优化器 #optimizer
pytorch面试题II:梯度更新的代码实现 pytorch面试题II: 梯度更新的代码实现1. BGD1234567def batchGradientDescent(x, y, theta, alpha, m, maxIteration): for i in range(maxIteration): hypothesis = np.dot(x, theta) loss = hypothesis - y 2024-07-08 pytorch #pytorch #coding
各种激活函数的介绍 常见激活函数的介绍激活函数的作用 把神经元的输出拉回在一定范围内. 给模型添加非线性因素. 因为线性模型的表达能力不够, 多层线性叠加还是线性, 相当于一层网络$y=Mx+b$. 但是有些模型只使用线性函数是无法表示的. 比如下面这个简单的图, 想用一个函数把蓝色和红色分开, 只使用直线无法分开, 需要添加非线性因素: 什么是线性函数:首先理解下‘线性函数’这个基本概念, 之所以想强调这点, 2024-07-05 ML基础知识 > 激活函数 #ML #激活函数
优化器介绍I——BGD/SGD/MBGD 优化器介绍I——BGD/SGD/MBGD优化器介绍篇章1,这里介绍了三种梯度更新方法:BGD/SGD/MBGD,并实现公式推导。 优化器的作用优化器的作用是更新模型参数,让损失函数尽可能减小,把参数往正确方向引导,让损失函数不断逼近全局最小值。 这个优化问题就像下山,损失函数是一座山(真实的损失函数是高维,这里理解为三维),我们要找到全局最小值。当前位置是在当前参数下的损失函数值,下山的方向是损失 2024-07-05 ML基础知识 > 优化器 #optimizer
详细理解attention的原理 详细理解attention的原理transformer中最重要的就是attention block。这里会详细理解各种类型的attention block: 注意力机制attention 自注意力机制 self-attention 多头注意力机制 multi-head attention 掩码注意力机制 masked multi-head attention 交叉注意力机制 cross atte 2024-07-05 ML常见模型 > transformer #transformer #NLP