KQ's AI Blog

各种激活函数的介绍

常见激活函数的介绍激活函数的作用把神经元的输出拉回在一定范围内. 给模型添加非线性因素. 因为线性模型的表达能力不够, 多层线性叠加还是线性, 相当于一层网络$y=Mx+b$. 但是有些模型只使用线性函数是无法表示的. 比如下面这个简单的图, 想用一个函数把蓝色和红色分开, 只使用直线无法分开, 需要添加非线性因素: 什么是线性函数:首先理解下‘线性函数’这个基本概念, 之所以想强调这点,

2024-07-05

ML基础知识 > 激活函数

#ML #激活函数

优化器介绍I——BGD/SGD/MBGD

优化器介绍I——BGD/SGD/MBGD优化器介绍篇章1，这里介绍了三种梯度更新方法：BGD/SGD/MBGD，并实现公式推导。优化器的作用优化器的作用是更新模型参数，让损失函数尽可能减小，把参数往正确方向引导，让损失函数不断逼近全局最小值。这个优化问题就像下山，损失函数是一座山（真实的损失函数是高维，这里理解为三维），我们要找到全局最小值。当前位置是在当前参数下的损失函数值，下山的方向是损失

2024-07-05

ML基础知识 > 优化器

#optimizer

详细理解attention的原理

详细理解attention的原理transformer中最重要的就是attention block。这里会详细理解各种类型的attention block：注意力机制attention 自注意力机制 self-attention 多头注意力机制 multi-head attention 掩码注意力机制 masked multi-head attention 交叉注意力机制 cross atte

2024-07-05

ML常见模型 > transformer

#transformer #NLP

pytorch面试题：实现attention结构

pytorch面试题I：transformer中重要模块transformer中的attention机制很重要，面试中可能会让你手动实现attention。这里记录了transformer架构会考的重要知识点： pytorch手动搭建ScaledDotProduct Attention； pytorch搭建multi-head attention； pytorch搭建self-attenti

2024-07-05

pytorch

#pytorch #coding

位置编码的原理详解

位置编码的原理和细节位置编码positional encoding就是在tokens中加入位置信息，因为对文本来说，相同单词在不同位置的含义不同，给每个单词在文本中的位置信息对之后的模型训练很重要。位置编码可以分为绝对位置编码和相对位置编码。绝对用这编码就是让每个token存储它的绝对位置的信息。绝对位置编码最常见的有三角函数位置编码。是google的论文‘attention is

2024-07-05

ML常见模型 > transformer

#NLP #ML

tokenizer的原理I

tokenizer的原理详解I相关术语什么是token：token是文本或序列数据中的最小离散单元。在自然语言处理中，一个token可以是一个单词、一个子词（如字母、音节或子词片段），或一个字符，取决于任务和数据的预处理方式。例如，把单词作为最小离散单元，句子”I love deep learning”可以被拆分成4个单词 tokens：[“I”, “love”, “deep”, “learni

2024-07-05

ML基础知识 > Tokenizer

#transformer #tokenizer

浅析transformer的结构

浅析transformer结构transformer的结构有点复杂，中间涉及很多重要结构。这里会大致理解每个结构的公式原理，详细的解释会在每个细节帖子中展现。 transformer是NLP模型很常见的结构。大语言模型的处理流程，通俗理解是这样：假设模型现在已经训练好，预测过程：输入文本，经过模型得到预测的下一个字，然后把这个字和之前内容输入，得到下一个字预测。迭代最终得到预测的回答。 trans

2024-07-05

ML常见模型 > transformer

#transformer #NLP #ML