KQ's AI Blog
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于
  • English

GPT2模型原理的通俗理解

GPT2模型原理的通俗理解GPT2和只带有解码器decoder的transformer模型很像. 它有超大规模,是一个在海量数据集上基于transformer解码器训练的模型. BERT模型则是通过transformer编码器模块构建的. 通俗而言,gpt2就是根据现有句子,预测下一个单词会是什么. 它像传统的语言模型一样, 一次只输出一个单词token, 每次产生新单词后,该单词会被添加在
2024-07-10
ML常见模型 > GPT
#GPT

HMA论文-存内计算方向

HMA论文今天我们看这篇论文: Heterogeneous Memory Architecture Accommodating Processing-In-Memory on SoC For AIoT Applications. 链接: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9712544 Abstract由于其低
2024-07-10
论文精读
#论文精读

SQuAD数据集的结构和代码

一文理解SQuAD数据集的结构SQuAD1.1版本:SQuAD数据集全称Stanford Question Answering Dataset,是一个阅读理解数据集,是工作者在维基百科文章上提出的问题,每个问题的答案都是相应文章中的一段文本. SQuAD1.1版本的论文: https://arxiv.org/pdf/1606.05250 SQuAD1.1的huggingface: https:
2024-07-10
数据集
#数据集

Double-Win-Quant 论文精读

Double-Win Quant 论文精读今天读这篇论文: Double-Win Quant: Aggressively Winning Robustness of Quantized Deep Neural Networks via Random Precision Training and Inference 官方代码在这里: GitHub Rice-Eic Double-Win-Quant
2024-07-10
论文精读
#论文精读 #模型量化

CPT Cyclic Precision Training 论文精读

CPT cyclic precision training 论文精读今天精读这篇论文:CPT: EFFICIENT DEEP NEURAL NETWORK TRAINING VIA CYCLIC PRECISION官方代码在这里:github-gatech-eic-cpt Abstract低精度深度神经网络(DNN)训练由于减少精度是提高DNN训练时间/能量效率的最有效手段之一而受到了极大的关注。
2024-07-10
论文精读
#论文精读 #模型量化

LoRA论文精读

LoRA论文精读我们详细看看这篇论文:Low-Rank Adaptation of Large Language Models 这篇论文是2021年十月由Microsoft发表的。 Abstract自然语言处理的重要范式包括在通用领域数据上进行大规模预训练,并适应特定任务或领域。随着我们预训练更大的模型,全量微调(重新训练所有模型参数)变得越来越不可行。以GPT-3 175B为例——部署每个具有1
2024-07-09
论文精读
#论文精读 #LoRA

大模型量化技术的原理和代码实现

大模型量化技术的原理大模型量化,简单而言,就是对大模型中的参数(比如权重参数)转换数据类型,比如从16位浮点型转为8位整型,转换后数据只占用一般存储空间且推理加快,但模型性能损失不大。 目前主要有两个权重量化技术: PTQ (Post-Training Quantization)训练后量化:先训练好模型,再把模型权重转为较低精度,而无需任何重新训练。PTQ方法易于实施,但是会导致潜在性能下降。
2024-07-09
ML基础知识 > 模型量化
#模型量化

LLM-QAT论文精读

LLM-QAT论文精读今天我们精读这篇论文:LLM-QAT: Data-Free Quantization Aware Training for Large Language Models 这篇论文实现了对通用大模型的量化,大模型的量化是指:用更少的信息表示数据,同时不损失太多准确性。通常的做法是将模型的一些参数(如权重)转换并存储为更少比特的数据类型。例如,将权重参数由16位浮点数转为8位整数,
2024-07-09
论文精读
#论文精读 #模型量化

优化器介绍II——动量和自适应学习率

优化器介绍II——动量&自适应学习率在优化器篇章1 中,BGD/SGD/MBGD三种梯度下降方法的学习率是不变了,是提前设置好的超参数。这时就面临一个问题,如何设置初始学习率?因为使用不同的batch size时学习率最好有所变化。还有学习率在训练时不能自主调节吗(自适应学习率)?下面介绍的这几种优化器,会使用动态调节的学习率。 什么是动量一阶矩/二阶矩/一阶动量/二阶动量首先简单介绍什么
2024-07-08
ML基础知识 > 优化器
#optimizer

pytorch面试题II:梯度更新的代码实现

pytorch面试题II: 梯度更新的代码实现1. BGD1234567def batchGradientDescent(x, y, theta, alpha, m, maxIteration): for i in range(maxIteration): hypothesis = np.dot(x, theta) loss = hypothesis - y
2024-07-08
pytorch
#pytorch #coding
123

搜索

Kangkang GitHub
点击量: , 访问人数: