康康博客
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于

详细理解attention的原理

详细理解attention的原理transformer中最重要的就是attention block。这里会详细理解各种类型的attention block: 注意力机制attention 自注意力机制 self-attention 多头注意力机制 multi-head attention 掩码注意力机制 masked multi-head attention 交叉注意力机制 cross atte
2024-07-05
ML常见模型 > transformer
#transformer #NLP

pytorch面试题:实现attention结构

pytorch面试题I:transformer中重要模块transformer中的attention机制很重要,面试中可能会让你手动实现attention。这里记录了transformer架构会考的重要知识点: pytorch手动搭建ScaledDotProduct Attention; pytorch搭建multi-head attention; pytorch搭建self-attenti
2024-07-05
pytorch
#pytorch #coding

位置编码的原理详解

位置编码的原理和细节位置编码positional encoding就是在tokens中加入位置信息,因为对文本来说,相同单词在不同位置的含义不同,给每个单词在文本中的位置信息对之后的模型训练很重要。 位置编码可以分为绝对位置编码和相对位置编码。 绝对用这编码就是让每个token存储它的绝对位置的信息。 绝对位置编码最常见的有三角函数位置编码。是google的论文‘attention is
2024-07-05
ML常见模型 > transformer
#ML #NLP

tokenizer的原理I

tokenizer的原理详解I相关术语 什么是token:token是文本或序列数据中的最小离散单元。在自然语言处理中,一个token可以是一个单词、一个子词(如字母、音节或子词片段),或一个字符,取决于任务和数据的预处理方式。例如,把单词作为最小离散单元,句子”I love deep learning”可以被拆分成4个单词 tokens:[“I”, “love”, “deep”, “learni
2024-07-05
ML基础知识 > Tokenizer
#transformer #tokenizer

浅析transformer的结构

浅析transformer结构transformer的结构有点复杂,中间涉及很多重要结构。这里会大致理解每个结构的公式原理,详细的解释会在每个细节帖子中展现。 transformer是NLP模型很常见的结构。大语言模型的处理流程,通俗理解是这样:假设模型现在已经训练好,预测过程:输入文本,经过模型得到预测的下一个字,然后把这个字和之前内容输入,得到下一个字预测。迭代最终得到预测的回答。 trans
2024-07-05
ML常见模型 > transformer
#ML #transformer #NLP
123

搜索

Kangkang GitHub
点击量: , 访问人数: