康康博客

详细理解attention的原理

详细理解attention的原理transformer中最重要的就是attention block。这里会详细理解各种类型的attention block：注意力机制attention 自注意力机制 self-attention 多头注意力机制 multi-head attention 掩码注意力机制 masked multi-head attention 交叉注意力机制 cross atte

2024-07-05

ML常见模型 > transformer

#transformer #NLP

pytorch面试题：实现attention结构

pytorch面试题I：transformer中重要模块transformer中的attention机制很重要，面试中可能会让你手动实现attention。这里记录了transformer架构会考的重要知识点： pytorch手动搭建ScaledDotProduct Attention； pytorch搭建multi-head attention； pytorch搭建self-attenti

2024-07-05

pytorch

#pytorch #coding

位置编码的原理详解

位置编码的原理和细节位置编码positional encoding就是在tokens中加入位置信息，因为对文本来说，相同单词在不同位置的含义不同，给每个单词在文本中的位置信息对之后的模型训练很重要。位置编码可以分为绝对位置编码和相对位置编码。绝对用这编码就是让每个token存储它的绝对位置的信息。绝对位置编码最常见的有三角函数位置编码。是google的论文‘attention is

2024-07-05

ML常见模型 > transformer

#ML #NLP

tokenizer的原理I

tokenizer的原理详解I相关术语什么是token：token是文本或序列数据中的最小离散单元。在自然语言处理中，一个token可以是一个单词、一个子词（如字母、音节或子词片段），或一个字符，取决于任务和数据的预处理方式。例如，把单词作为最小离散单元，句子”I love deep learning”可以被拆分成4个单词 tokens：[“I”, “love”, “deep”, “learni

2024-07-05

ML基础知识 > Tokenizer

#transformer #tokenizer

浅析transformer的结构

浅析transformer结构transformer的结构有点复杂，中间涉及很多重要结构。这里会大致理解每个结构的公式原理，详细的解释会在每个细节帖子中展现。 transformer是NLP模型很常见的结构。大语言模型的处理流程，通俗理解是这样：假设模型现在已经训练好，预测过程：输入文本，经过模型得到预测的下一个字，然后把这个字和之前内容输入，得到下一个字预测。迭代最终得到预测的回答。 trans

2024-07-05

ML常见模型 > transformer

#ML #transformer #NLP