KQ's AI Blog

GPT2模型原理的通俗理解

GPT2模型原理的通俗理解GPT2和只带有解码器decoder的transformer模型很像. 它有超大规模,是一个在海量数据集上基于transformer解码器训练的模型. BERT模型则是通过transformer编码器模块构建的. 通俗而言,gpt2就是根据现有句子,预测下一个单词会是什么. 它像传统的语言模型一样, 一次只输出一个单词token, 每次产生新单词后,该单词会被添加在

2024-07-10

ML常见模型 > GPT

#GPT

HMA论文-存内计算方向

HMA论文今天我们看这篇论文: Heterogeneous Memory Architecture Accommodating Processing-In-Memory on SoC For AIoT Applications. 链接: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9712544 Abstract由于其低

2024-07-10

论文精读

#论文精读

SQuAD数据集的结构和代码

一文理解SQuAD数据集的结构SQuAD1.1版本:SQuAD数据集全称Stanford Question Answering Dataset,是一个阅读理解数据集,是工作者在维基百科文章上提出的问题,每个问题的答案都是相应文章中的一段文本. SQuAD1.1版本的论文: https://arxiv.org/pdf/1606.05250 SQuAD1.1的huggingface: https:

2024-07-10

数据集

#数据集

Double-Win-Quant 论文精读

Double-Win Quant 论文精读今天读这篇论文: Double-Win Quant: Aggressively Winning Robustness of Quantized Deep Neural Networks via Random Precision Training and Inference 官方代码在这里: GitHub Rice-Eic Double-Win-Quant

2024-07-10

论文精读

#论文精读 #模型量化

CPT Cyclic Precision Training 论文精读

CPT cyclic precision training 论文精读今天精读这篇论文:CPT: EFFICIENT DEEP NEURAL NETWORK TRAINING VIA CYCLIC PRECISION官方代码在这里:github-gatech-eic-cpt Abstract低精度深度神经网络（DNN）训练由于减少精度是提高DNN训练时间/能量效率的最有效手段之一而受到了极大的关注。

2024-07-10

论文精读

#论文精读 #模型量化

LoRA论文精读

LoRA论文精读我们详细看看这篇论文：Low-Rank Adaptation of Large Language Models 这篇论文是2021年十月由Microsoft发表的。 Abstract自然语言处理的重要范式包括在通用领域数据上进行大规模预训练，并适应特定任务或领域。随着我们预训练更大的模型，全量微调（重新训练所有模型参数）变得越来越不可行。以GPT-3 175B为例——部署每个具有1

2024-07-09

论文精读

#论文精读 #LoRA

大模型量化技术的原理和代码实现

大模型量化技术的原理大模型量化，简单而言，就是对大模型中的参数（比如权重参数）转换数据类型，比如从16位浮点型转为8位整型，转换后数据只占用一般存储空间且推理加快，但模型性能损失不大。目前主要有两个权重量化技术： PTQ (Post-Training Quantization)训练后量化：先训练好模型，再把模型权重转为较低精度，而无需任何重新训练。PTQ方法易于实施，但是会导致潜在性能下降。

2024-07-09

ML基础知识 > 模型量化

#模型量化

LLM-QAT论文精读

LLM-QAT论文精读今天我们精读这篇论文：LLM-QAT: Data-Free Quantization Aware Training for Large Language Models 这篇论文实现了对通用大模型的量化，大模型的量化是指：用更少的信息表示数据，同时不损失太多准确性。通常的做法是将模型的一些参数（如权重）转换并存储为更少比特的数据类型。例如，将权重参数由16位浮点数转为8位整数，

2024-07-09

论文精读

#论文精读 #模型量化

优化器介绍II——动量和自适应学习率

优化器介绍II——动量&自适应学习率在优化器篇章1 中，BGD/SGD/MBGD三种梯度下降方法的学习率是不变了，是提前设置好的超参数。这时就面临一个问题，如何设置初始学习率？因为使用不同的batch size时学习率最好有所变化。还有学习率在训练时不能自主调节吗（自适应学习率）？下面介绍的这几种优化器，会使用动态调节的学习率。什么是动量一阶矩/二阶矩/一阶动量/二阶动量首先简单介绍什么

2024-07-08

ML基础知识 > 优化器

#optimizer

pytorch面试题II：梯度更新的代码实现

pytorch面试题II: 梯度更新的代码实现1. BGD1234567def batchGradientDescent(x, y, theta, alpha, m, maxIteration): for i in range(maxIteration): hypothesis = np.dot(x, theta) loss = hypothesis - y

2024-07-08

pytorch

#pytorch #coding