NLP常见面试问题集合 NLP常见面试问题集合tokenizationQ1. 解释一下什么是token, tokenizer, 和tokenization.所谓的 token,就是模型在处理文本的时候看到的最小“片段”。它可以是一个词,也可以是一个字,甚至还可以是一个更小的子词。举个例子,比如中文的“自然语言处理”,它可能会被切成“自然”,“语言”,“处理”,这几个就是 token。模型本身并不是直接理解原始的文字,而是 2025-10-03 面试QA #NLP
基于深度学习的光流算法及代码 深度学习的光流模型在前一篇博客‘传统光流算法和代码’, 我介绍了传统光流算法: 1981年的LK算法, 金字塔光流方法, 和forneback算法. 随着深度学习的快速发展, 2015年有作者提出FlowNet模型, 并在2017年提出FlowNet2.0版本, 至今仍是深度学习光流估计算法中最经典的论文. 光流概念的介绍在计算机视觉中, 光流指的是视频中物体的移动. 具体地, 是视频图像的一帧 2025-04-17 #深度学习
传统光流算法和代码 传统光流算法和代码光流(optical flow)表示连续两帧的图片中目标像素的移动, 光流是二维矢量场, 表示目标像素从第一帧到第二帧的位移, 即对相邻两帧图片的目标像素的速度估计. 光流算法分为“稠密光流”和“稀疏光流”: 稠密光流: 对相邻两帧图像中的每个像素的速度进行估计, 也就是计算图像中每个像素的位移矢量. 稀疏光流: 只对特定像素点进行跟踪, 关注特定点的位移. 这种算法更加快速 2025-04-17 #opticalFlow
llama3.1模型的下载和性能测评 一文理解llama3.1模型的性能2024年7月23日, Meta发布了最新的Llama3.1模型, llama3.1中包含了新的405B模型, 更新了之前的llama3 8B和70B模型, 并扩展了context window, 支持8种语言. llama3.1的405B模型在常识(general knowledge), 可操纵性, 数学, 工具使用和多语言翻译等任务中可以与领先的闭源模型相媲美 2024-08-19 ML常见模型 > llama #llama #lm-eval-harness
综述大模型的参数高效微调(PEFT)方法 综述PEFT方法PEFT, 全称Parameter-Efficient Fine-tuning, 是大模型的参数高效微调方法. PEFT方法只需要微调LLM的少量参数, 不需要对预训练模型的全部参数进行微调. 可以极大降低大模型微调的计算和存储成本, 并且有助于模型的轻便型, 便于部署在消费级硬件上. PEFT方法可以获得和全参数微调相近的性能, 能使预训练大模型高效适用于各种下游任务. 1. 2024-08-19 ML基础知识 #PEFT
详细介绍Google的SentencePiece Google的SentencePiece分词器什么是SentencePieceSentencePiece是Google推出的sub-word开源工具包. 它是一个无监督的文本tokenizer和detokenizer, 主要用于基于神经网络的文本生成系统, 其中词汇量是在模型训练之前预先确定的. SentencePiece实现子词单元(例如byte-pair-encoding(BPE), 和uni 2024-07-29 ML基础知识 > Tokenizer #tokenizer
llama2模型的结构和原理 llama2模型的原理和代码详解llama2模型是Meta在2023年3月份左右提出的大语言模型. 它声称以更小的体积, 在多数任务上超过GPT-3的性能. 模型的github代码和research paper看下方的资源链接. 下面我会结合llama2的官方源码来通俗解释llama2是如何实现文本生成和对话功能. 整体流程简单而言, llama2的流程是这样的(以文本补全为例):输入一段文本, 2024-07-21 ML常见模型 > llama #llama
通俗理解llama3的性能和创新 通俗理解llama3模型的性能和创新2024年4月18日, Meta官方发布了text-based llama3大模型, 这是最新一代的large language model (LLM). 这个text-based model是llama3系列模型中的第一个, 之后会让llama3实现多语言(multilingual)和多模态(multimodal), 实现更长context上下文, 并提高推 2024-07-20 ML常见模型 > llama #llama
最大似然估计和CE的关系 最大似然估计和CE的关系为了理解CE和最大似然法之间的关系, 首先理解基本概念. 信息量和熵信息量信息量衡量了时间的不确定性, 一个时间发生的概率越大, 不确定性就越小, 信息量就越少. 公式: L(x_0) = - \log p(x_0)事件$x_0$, 事件发生的概率是$p(x_0)$, 若事件必然发生, $p(x_0)=1$, 信息量为0. 熵熵衡量了系统的混乱程度和不确定性. 熵越大, 2024-07-19 ML基础知识 > 损失函数 #损失函数
常见损失函数介绍 常见损失函数损失函数就是用于计算预测label和真实label之间差距的函数. MSE损失函数MSE是mean squared error, 均方误差损失函数. 求两个向量的差的平方之和, 再对batch size=n求均值. 公式如下: MSE = \frac{1}{n}\sum_{i=1}^n(\hat y_i - y_i)^2=\frac{1}{n}\sum_{i=1}^n(\sum_{ 2024-07-19 ML基础知识 > 损失函数 #损失函数