KQ's AI Blog

NLP常见面试问题集合

NLP常见面试问题集合tokenizationQ1. 解释一下什么是token, tokenizer, 和tokenization.所谓的 token，就是模型在处理文本的时候看到的最小“片段”。它可以是一个词，也可以是一个字，甚至还可以是一个更小的子词。举个例子，比如中文的“自然语言处理”，它可能会被切成“自然”，“语言”，“处理”，这几个就是 token。模型本身并不是直接理解原始的文字，而是

2025-10-03

面试QA

#NLP

基于深度学习的光流算法及代码

深度学习的光流模型在前一篇博客‘传统光流算法和代码’, 我介绍了传统光流算法: 1981年的LK算法, 金字塔光流方法, 和forneback算法. 随着深度学习的快速发展, 2015年有作者提出FlowNet模型, 并在2017年提出FlowNet2.0版本, 至今仍是深度学习光流估计算法中最经典的论文. 光流概念的介绍在计算机视觉中, 光流指的是视频中物体的移动. 具体地, 是视频图像的一帧

2025-04-17

#深度学习

传统光流算法和代码

传统光流算法和代码光流(optical flow)表示连续两帧的图片中目标像素的移动, 光流是二维矢量场, 表示目标像素从第一帧到第二帧的位移, 即对相邻两帧图片的目标像素的速度估计. 光流算法分为“稠密光流”和“稀疏光流”: 稠密光流: 对相邻两帧图像中的每个像素的速度进行估计, 也就是计算图像中每个像素的位移矢量. 稀疏光流: 只对特定像素点进行跟踪, 关注特定点的位移. 这种算法更加快速

2025-04-17

#opticalFlow

llama3.1模型的下载和性能测评

一文理解llama3.1模型的性能2024年7月23日, Meta发布了最新的Llama3.1模型, llama3.1中包含了新的405B模型, 更新了之前的llama3 8B和70B模型, 并扩展了context window, 支持8种语言. llama3.1的405B模型在常识(general knowledge), 可操纵性, 数学, 工具使用和多语言翻译等任务中可以与领先的闭源模型相媲美

2024-08-19

ML常见模型 > llama

#llama #lm-eval-harness

综述大模型的参数高效微调(PEFT)方法

综述PEFT方法PEFT, 全称Parameter-Efficient Fine-tuning, 是大模型的参数高效微调方法. PEFT方法只需要微调LLM的少量参数, 不需要对预训练模型的全部参数进行微调. 可以极大降低大模型微调的计算和存储成本, 并且有助于模型的轻便型, 便于部署在消费级硬件上. PEFT方法可以获得和全参数微调相近的性能, 能使预训练大模型高效适用于各种下游任务. 1.

2024-08-19

ML基础知识

#PEFT

详细介绍Google的SentencePiece

Google的SentencePiece分词器什么是SentencePieceSentencePiece是Google推出的sub-word开源工具包. 它是一个无监督的文本tokenizer和detokenizer, 主要用于基于神经网络的文本生成系统, 其中词汇量是在模型训练之前预先确定的. SentencePiece实现子词单元(例如byte-pair-encoding(BPE), 和uni

2024-07-29

ML基础知识 > Tokenizer

#tokenizer

llama2模型的结构和原理

llama2模型的原理和代码详解llama2模型是Meta在2023年3月份左右提出的大语言模型. 它声称以更小的体积, 在多数任务上超过GPT-3的性能. 模型的github代码和research paper看下方的资源链接. 下面我会结合llama2的官方源码来通俗解释llama2是如何实现文本生成和对话功能. 整体流程简单而言, llama2的流程是这样的(以文本补全为例):输入一段文本,

2024-07-21

ML常见模型 > llama

#llama

通俗理解llama3的性能和创新

通俗理解llama3模型的性能和创新2024年4月18日, Meta官方发布了text-based llama3大模型, 这是最新一代的large language model (LLM). 这个text-based model是llama3系列模型中的第一个, 之后会让llama3实现多语言(multilingual)和多模态(multimodal), 实现更长context上下文, 并提高推

2024-07-20

ML常见模型 > llama

#llama

最大似然估计和CE的关系

最大似然估计和CE的关系为了理解CE和最大似然法之间的关系, 首先理解基本概念. 信息量和熵信息量信息量衡量了时间的不确定性, 一个时间发生的概率越大, 不确定性就越小, 信息量就越少. 公式: L(x_0) = - \log p(x_0)事件$x_0$, 事件发生的概率是$p(x_0)$, 若事件必然发生, $p(x_0)=1$, 信息量为0. 熵熵衡量了系统的混乱程度和不确定性. 熵越大,

2024-07-19

ML基础知识 > 损失函数

#损失函数

常见损失函数介绍

常见损失函数损失函数就是用于计算预测label和真实label之间差距的函数. MSE损失函数MSE是mean squared error, 均方误差损失函数. 求两个向量的差的平方之和, 再对batch size=n求均值. 公式如下: MSE = \frac{1}{n}\sum_{i=1}^n(\hat y_i - y_i)^2=\frac{1}{n}\sum_{i=1}^n(\sum_{

2024-07-19

ML基础知识 > 损失函数

#损失函数