llama3.1模型的下载和性能测评 一文理解llama3.1模型的性能2024年7月23日, Meta发布了最新的Llama3.1模型, llama3.1中包含了新的405B模型, 更新了之前的llama3 8B和70B模型, 并扩展了context window, 支持8种语言. llama3.1的405B模型在常识(general knowledge), 可操纵性, 数学, 工具使用和多语言翻译等任务中可以与领先的闭源模型相媲美 2024-08-19 ML常见模型 > llama #llama #lm-eval-harness
综述大模型的参数高效微调(PEFT)方法 综述PEFT方法PEFT, 全称Parameter-Efficient Fine-tuning, 是大模型的参数高效微调方法. PEFT方法只需要微调LLM的少量参数, 不需要对预训练模型的全部参数进行微调. 可以极大降低大模型微调的计算和存储成本, 并且有助于模型的轻便型, 便于部署在消费级硬件上. PEFT方法可以获得和全参数微调相近的性能, 能使预训练大模型高效适用于各种下游任务. 1. 2024-08-19 ML基础知识 #PEFT
详细介绍Google的SentencePiece Google的SentencePiece分词器什么是SentencePieceSentencePiece是Google推出的sub-word开源工具包. 它是一个无监督的文本tokenizer和detokenizer, 主要用于基于神经网络的文本生成系统, 其中词汇量是在模型训练之前预先确定的. SentencePiece实现子词单元(例如byte-pair-encoding(BPE), 和uni 2024-07-29 ML基础知识 > Tokenizer #tokenizer
llama2模型的结构和原理 llama2模型的原理和代码详解llama2模型是Meta在2023年3月份左右提出的大语言模型. 它声称以更小的体积, 在多数任务上超过GPT-3的性能. 模型的github代码和research paper看下方的资源链接. 下面我会结合llama2的官方源码来通俗解释llama2是如何实现文本生成和对话功能. 整体流程简单而言, llama2的流程是这样的(以文本补全为例):输入一段文本, 2024-07-21 ML常见模型 > llama #llama
通俗理解llama3的性能和创新 通俗理解llama3模型的性能和创新2024年4月18日, Meta官方发布了text-based llama3大模型, 这是最新一代的large language model (LLM). 这个text-based model是llama3系列模型中的第一个, 之后会让llama3实现多语言(multilingual)和多模态(multimodal), 实现更长context上下文, 并提高推 2024-07-20 ML常见模型 > llama #llama
最大似然估计和CE的关系 最大似然估计和CE的关系为了理解CE和最大似然法之间的关系, 首先理解基本概念. 信息量和熵信息量信息量衡量了时间的不确定性, 一个时间发生的概率越大, 不确定性就越小, 信息量就越少. 公式: L(x_0) = - \log p(x_0)事件$x_0$, 事件发生的概率是$p(x_0)$, 若事件必然发生, $p(x_0)=1$, 信息量为0. 熵熵衡量了系统的混乱程度和不确定性. 熵越大, 2024-07-19 ML基础知识 > 损失函数 #损失函数
常见损失函数介绍 常见损失函数损失函数就是用于计算预测label和真实label之间差距的函数. MSE损失函数MSE是mean squared error, 均方误差损失函数. 求两个向量的差的平方之和, 再对batch size=n求均值. 公式如下: MSE = \frac{1}{n}\sum_{i=1}^n(\hat y_i - y_i)^2=\frac{1}{n}\sum_{i=1}^n(\sum_{ 2024-07-19 ML基础知识 > 损失函数 #损失函数
GPT2模型原理的通俗理解 GPT2模型原理的通俗理解GPT2和只带有解码器decoder的transformer模型很像. 它有超大规模,是一个在海量数据集上基于transformer解码器训练的模型. BERT模型则是通过transformer编码器模块构建的. 通俗而言,gpt2就是根据现有句子,预测下一个单词会是什么. 它像传统的语言模型一样, 一次只输出一个单词token, 每次产生新单词后,该单词会被添加在 2024-07-10 ML常见模型 > GPT #GPT
HMA论文-存内计算方向 HMA论文今天我们看这篇论文: Heterogeneous Memory Architecture Accommodating Processing-In-Memory on SoC For AIoT Applications. 链接: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9712544 Abstract由于其低 2024-07-10 论文精读 #论文精读
SQuAD数据集的结构和代码 一文理解SQuAD数据集的结构SQuAD1.1版本:SQuAD数据集全称Stanford Question Answering Dataset,是一个阅读理解数据集,是工作者在维基百科文章上提出的问题,每个问题的答案都是相应文章中的一段文本. SQuAD1.1版本的论文: https://arxiv.org/pdf/1606.05250 SQuAD1.1的huggingface: https: 2024-07-10 数据集 #数据集