康康博客

SQuAD数据集的结构和代码

一文理解SQuAD数据集的结构SQuAD1.1版本:SQuAD数据集全称Stanford Question Answering Dataset,是一个阅读理解数据集,是工作者在维基百科文章上提出的问题,每个问题的答案都是相应文章中的一段文本. SQuAD1.1版本的论文: https://arxiv.org/pdf/1606.05250 SQuAD1.1的huggingface: https:

2024-07-10

数据集

#数据集

Double-Win-Quant 论文精读

Double-Win Quant 论文精读今天读这篇论文: Double-Win Quant: Aggressively Winning Robustness of Quantized Deep Neural Networks via Random Precision Training and Inference 官方代码在这里: GitHub Rice-Eic Double-Win-Quant

2024-07-10

论文精读

#论文精读 #模型量化

CPT Cyclic Precision Training 论文精读

CPT cyclic precision training 论文精读今天精读这篇论文:CPT: EFFICIENT DEEP NEURAL NETWORK TRAINING VIA CYCLIC PRECISION官方代码在这里:github-gatech-eic-cpt Abstract低精度深度神经网络（DNN）训练由于减少精度是提高DNN训练时间/能量效率的最有效手段之一而受到了极大的关注。

2024-07-10

论文精读

#论文精读 #模型量化

LoRA论文精读

LoRA论文精读我们详细看看这篇论文：Low-Rank Adaptation of Large Language Models 这篇论文是2021年十月由Microsoft发表的。 Abstract自然语言处理的重要范式包括在通用领域数据上进行大规模预训练，并适应特定任务或领域。随着我们预训练更大的模型，全量微调（重新训练所有模型参数）变得越来越不可行。以GPT-3 175B为例——部署每个具有1

2024-07-09

论文精读

#论文精读 #LoRA

大模型量化技术的原理和代码实现

大模型量化技术的原理大模型量化，简单而言，就是对大模型中的参数（比如权重参数）转换数据类型，比如从16位浮点型转为8位整型，转换后数据只占用一般存储空间且推理加快，但模型性能损失不大。目前主要有两个权重量化技术： PTQ (Post-Training Quantization)训练后量化：先训练好模型，再把模型权重转为较低精度，而无需任何重新训练。PTQ方法易于实施，但是会导致潜在性能下降。

2024-07-09

ML基础知识 > 模型量化

#模型量化

LLM-QAT论文精读

LLM-QAT论文精读今天我们精读这篇论文：LLM-QAT: Data-Free Quantization Aware Training for Large Language Models 这篇论文实现了对通用大模型的量化，大模型的量化是指：用更少的信息表示数据，同时不损失太多准确性。通常的做法是将模型的一些参数（如权重）转换并存储为更少比特的数据类型。例如，将权重参数由16位浮点数转为8位整数，

2024-07-09

论文精读

#论文精读 #模型量化

优化器介绍II——动量和自适应学习率

优化器介绍II——动量&自适应学习率在优化器篇章1 中，BGD/SGD/MBGD三种梯度下降方法的学习率是不变了，是提前设置好的超参数。这时就面临一个问题，如何设置初始学习率？因为使用不同的batch size时学习率最好有所变化。还有学习率在训练时不能自主调节吗（自适应学习率）？下面介绍的这几种优化器，会使用动态调节的学习率。什么是动量一阶矩/二阶矩/一阶动量/二阶动量首先简单介绍什么

2024-07-08

ML基础知识 > 优化器

#optimizer

pytorch面试题II：梯度更新的代码实现

pytorch面试题II: 梯度更新的代码实现1. BGD1234567def batchGradientDescent(x, y, theta, alpha, m, maxIteration): for i in range(maxIteration): hypothesis = np.dot(x, theta) loss = hypothesis - y

2024-07-08

pytorch

#pytorch #coding

各种激活函数的介绍

常见激活函数的介绍激活函数的作用把神经元的输出拉回在一定范围内. 给模型添加非线性因素. 因为线性模型的表达能力不够, 多层线性叠加还是线性, 相当于一层网络$y=Mx+b$. 但是有些模型只使用线性函数是无法表示的. 比如下面这个简单的图, 想用一个函数把蓝色和红色分开, 只使用直线无法分开, 需要添加非线性因素: 什么是线性函数:首先理解下‘线性函数’这个基本概念, 之所以想强调这点,

2024-07-05

ML基础知识 > 激活函数

#ML #激活函数

优化器介绍I——BGD/SGD/MBGD

优化器介绍I——BGD/SGD/MBGD优化器介绍篇章1，这里介绍了三种梯度更新方法：BGD/SGD/MBGD，并实现公式推导。优化器的作用优化器的作用是更新模型参数，让损失函数尽可能减小，把参数往正确方向引导，让损失函数不断逼近全局最小值。这个优化问题就像下山，损失函数是一座山（真实的损失函数是高维，这里理解为三维），我们要找到全局最小值。当前位置是在当前参数下的损失函数值，下山的方向是损失

2024-07-05

ML基础知识 > 优化器

#optimizer