康康博客

superresolution01

图像的超清分辨率

2025-03-31

#图像分析

llama3.1模型的下载和性能测评

一文理解llama3.1模型的性能2024年7月23日, Meta发布了最新的Llama3.1模型, llama3.1中包含了新的405B模型, 更新了之前的llama3 8B和70B模型, 并扩展了context window, 支持8种语言. llama3.1的405B模型在常识(general knowledge), 可操纵性, 数学, 工具使用和多语言翻译等任务中可以与领先的闭源模型相媲美

2024-08-19

ML常见模型 > llama

#llama #lm-eval-harness

综述大模型的参数高效微调(PEFT)方法

综述PEFT方法PEFT, 全称Parameter-Efficient Fine-tuning, 是大模型的参数高效微调方法. PEFT方法只需要微调LLM的少量参数, 不需要对预训练模型的全部参数进行微调. 可以极大降低大模型微调的计算和存储成本, 并且有助于模型的轻便型, 便于部署在消费级硬件上. PEFT方法可以获得和全参数微调相近的性能, 能使预训练大模型高效适用于各种下游任务. 1.

2024-08-19

ML基础知识

#PEFT

详细介绍Google的SentencePiece

Google的SentencePiece分词器什么是SentencePieceSentencePiece是Google推出的sub-word开源工具包. 它是一个无监督的文本tokenizer和detokenizer, 主要用于基于神经网络的文本生成系统, 其中词汇量是在模型训练之前预先确定的. SentencePiece实现子词单元(例如byte-pair-encoding(BPE), 和uni

2024-07-29

ML基础知识 > Tokenizer

#tokenizer

llama2模型的结构和原理

llama2模型的原理和代码详解llama2模型是Meta在2023年3月份左右提出的大语言模型. 它声称以更小的体积, 在多数任务上超过GPT-3的性能. 模型的github代码和research paper看下方的资源链接. 下面我会结合llama2的官方源码来通俗解释llama2是如何实现文本生成和对话功能. 整体流程简单而言, llama2的流程是这样的(以文本补全为例):输入一段文本,

2024-07-21

ML常见模型 > llama

#llama

通俗理解llama3的性能和创新

通俗理解llama3模型的性能和创新2024年4月18日, Meta官方发布了text-based llama3大模型, 这是最新一代的large language model (LLM). 这个text-based model是llama3系列模型中的第一个, 之后会让llama3实现多语言(multilingual)和多模态(multimodal), 实现更长context上下文, 并提高推

2024-07-20

ML常见模型 > llama

#llama

最大似然估计和CE的关系

最大似然估计和CE的关系为了理解CE和最大似然法之间的关系, 首先理解基本概念. 信息量和熵信息量信息量衡量了时间的不确定性, 一个时间发生的概率越大, 不确定性就越小, 信息量就越少. 公式: L(x_0) = - \log p(x_0)事件$x_0$, 事件发生的概率是$p(x_0)$, 若事件必然发生, $p(x_0)=1$, 信息量为0. 熵熵衡量了系统的混乱程度和不确定性. 熵越大,

2024-07-19

ML基础知识 > 损失函数

#损失函数

常见损失函数介绍

常见损失函数损失函数就是用于计算预测label和真实label之间差距的函数. MSE损失函数MSE是mean squared error, 均方误差损失函数. 求两个向量的差的平方之和, 再对batch size=n求均值. 公式如下: MSE = \frac{1}{n}\sum_{i=1}^n(\hat y_i - y_i)^2=\frac{1}{n}\sum_{i=1}^n(\sum_{

2024-07-19

ML基础知识 > 损失函数

#损失函数

GPT2模型原理的通俗理解

GPT2模型原理的通俗理解GPT2和只带有解码器decoder的transformer模型很像. 它有超大规模,是一个在海量数据集上基于transformer解码器训练的模型. BERT模型则是通过transformer编码器模块构建的. 通俗而言,gpt2就是根据现有句子,预测下一个单词会是什么. 它像传统的语言模型一样, 一次只输出一个单词token, 每次产生新单词后,该单词会被添加在

2024-07-10

ML常见模型 > GPT

#GPT

HMA论文-存内计算方向

HMA论文今天我们看这篇论文: Heterogeneous Memory Architecture Accommodating Processing-In-Memory on SoC For AIoT Applications. 链接: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9712544 Abstract由于其低

2024-07-10

论文精读

#论文精读