pytorch面试题:实现attention结构 pytorch面试题I:transformer中重要模块transformer中的attention机制很重要,面试中可能会让你手动实现attention。这里记录了transformer架构会考的重要知识点: pytorch手动搭建ScaledDotProduct Attention; pytorch搭建multi-head attention; pytorch搭建self-attenti 2024-07-05 pytorch #pytorch #coding
位置编码的原理详解 位置编码的原理和细节位置编码positional encoding就是在tokens中加入位置信息,因为对文本来说,相同单词在不同位置的含义不同,给每个单词在文本中的位置信息对之后的模型训练很重要。 位置编码可以分为绝对位置编码和相对位置编码。 绝对用这编码就是让每个token存储它的绝对位置的信息。 绝对位置编码最常见的有三角函数位置编码。是google的论文‘attention is 2024-07-05 ML常见模型 > transformer #ML #NLP
tokenizer的原理I tokenizer的原理详解I相关术语 什么是token:token是文本或序列数据中的最小离散单元。在自然语言处理中,一个token可以是一个单词、一个子词(如字母、音节或子词片段),或一个字符,取决于任务和数据的预处理方式。例如,把单词作为最小离散单元,句子”I love deep learning”可以被拆分成4个单词 tokens:[“I”, “love”, “deep”, “learni 2024-07-05 ML基础知识 > Tokenizer #transformer #tokenizer
浅析transformer的结构 浅析transformer结构transformer的结构有点复杂,中间涉及很多重要结构。这里会大致理解每个结构的公式原理,详细的解释会在每个细节帖子中展现。 transformer是NLP模型很常见的结构。大语言模型的处理流程,通俗理解是这样:假设模型现在已经训练好,预测过程:输入文本,经过模型得到预测的下一个字,然后把这个字和之前内容输入,得到下一个字预测。迭代最终得到预测的回答。 trans 2024-07-05 ML常见模型 > transformer #ML #transformer #NLP