KQ's AI Blog
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于
  • English

各种激活函数的介绍

常见激活函数的介绍激活函数的作用 把神经元的输出拉回在一定范围内. 给模型添加非线性因素. 因为线性模型的表达能力不够, 多层线性叠加还是线性, 相当于一层网络$y=Mx+b$. 但是有些模型只使用线性函数是无法表示的. 比如下面这个简单的图, 想用一个函数把蓝色和红色分开, 只使用直线无法分开, 需要添加非线性因素: 什么是线性函数:首先理解下‘线性函数’这个基本概念, 之所以想强调这点,
2024-07-05
ML基础知识 > 激活函数
#ML #激活函数

优化器介绍I——BGD/SGD/MBGD

优化器介绍I——BGD/SGD/MBGD优化器介绍篇章1,这里介绍了三种梯度更新方法:BGD/SGD/MBGD,并实现公式推导。 优化器的作用优化器的作用是更新模型参数,让损失函数尽可能减小,把参数往正确方向引导,让损失函数不断逼近全局最小值。 这个优化问题就像下山,损失函数是一座山(真实的损失函数是高维,这里理解为三维),我们要找到全局最小值。当前位置是在当前参数下的损失函数值,下山的方向是损失
2024-07-05
ML基础知识 > 优化器
#optimizer

详细理解attention的原理

详细理解attention的原理transformer中最重要的就是attention block。这里会详细理解各种类型的attention block: 注意力机制attention 自注意力机制 self-attention 多头注意力机制 multi-head attention 掩码注意力机制 masked multi-head attention 交叉注意力机制 cross atte
2024-07-05
ML常见模型 > transformer
#transformer #NLP

pytorch面试题:实现attention结构

pytorch面试题I:transformer中重要模块transformer中的attention机制很重要,面试中可能会让你手动实现attention。这里记录了transformer架构会考的重要知识点: pytorch手动搭建ScaledDotProduct Attention; pytorch搭建multi-head attention; pytorch搭建self-attenti
2024-07-05
pytorch
#pytorch #coding

位置编码的原理详解

位置编码的原理和细节位置编码positional encoding就是在tokens中加入位置信息,因为对文本来说,相同单词在不同位置的含义不同,给每个单词在文本中的位置信息对之后的模型训练很重要。 位置编码可以分为绝对位置编码和相对位置编码。 绝对用这编码就是让每个token存储它的绝对位置的信息。 绝对位置编码最常见的有三角函数位置编码。是google的论文‘attention is
2024-07-05
ML常见模型 > transformer
#NLP #ML

tokenizer的原理I

tokenizer的原理详解I相关术语 什么是token:token是文本或序列数据中的最小离散单元。在自然语言处理中,一个token可以是一个单词、一个子词(如字母、音节或子词片段),或一个字符,取决于任务和数据的预处理方式。例如,把单词作为最小离散单元,句子”I love deep learning”可以被拆分成4个单词 tokens:[“I”, “love”, “deep”, “learni
2024-07-05
ML基础知识 > Tokenizer
#transformer #tokenizer

浅析transformer的结构

浅析transformer结构transformer的结构有点复杂,中间涉及很多重要结构。这里会大致理解每个结构的公式原理,详细的解释会在每个细节帖子中展现。 transformer是NLP模型很常见的结构。大语言模型的处理流程,通俗理解是这样:假设模型现在已经训练好,预测过程:输入文本,经过模型得到预测的下一个字,然后把这个字和之前内容输入,得到下一个字预测。迭代最终得到预测的回答。 trans
2024-07-05
ML常见模型 > transformer
#transformer #NLP #ML
123

搜索

Kangkang GitHub
点击量: , 访问人数: