Sitemap

使用一个最基础的LED闪灯的程序来测试的。使用的IDE是stm32CubeIDE，使用它主要还是考虑能够在macOS上运行，而且比keil等软件，人机界面做的好很多。使用的开发板是nucleo-h753ZI，开发板内置了ST-Link V3，所以不需要额外买st-link模块，直接使用micro usb-b（老安卓接口，注意是数据线，不是充电线，一开始就踩了这个坑，用充电线没法和STLink建立通信）连接即可下载程序。

cvpr VIT知识蒸馏综述Knowledge Distillation in Vision Transformers: A Critical Review解读

1 minute read

Published: March 16, 2025

论文链接: Knowledge Distillation in Vision Transformers: A Critical Review

cvpr2025知识蒸馏论文Attention Distillation: A Unified Approach to Visual Characteristics Transfer解读

1 minute read

Published: March 10, 2025

论文链接: Attention Distillation: A Unified Approach to Visual Characteristics Transfer

知识蒸馏综述Knowledge Distillation: A Survey解读

8 minute read

Published: March 07, 2025

论文链接：Knowledge Distillation: A Survey

重读Attention Is All You Need

1 minute read

Published: February 24, 2025

论文链接：Attention Is All You Need

使用ngrok做内网穿透

less than 1 minute read

Published: February 19, 2025

为什么使用ngrok？

分布式大语言模型服务引擎vLLM论文解读

1 minute read

Published: February 18, 2025

论文地址：Efficient Memory Management for Large Language Model Serving with PagedAttention

大语言模型推理和部署开源库VLLM解读

less than 1 minute read

Published: February 17, 2025

vLLM是借助分页注意力机制实现轻松、快速且低成本的大语言模型服务。

jetson orin nano super AI模型部署之路（一）deepseek r1模型部署

less than 1 minute read

Published: February 17, 2025

先看一下部署完成后的效果。可以直接在手机上访问jetson，有web界面供使用。

苹果ELEGNT台灯机器人paper解读

2 minute read

Published: February 12, 2025

苹果在这篇paper中，从心理学和人机工程学、用户行为调研等方面，给出了结论：相比只有功能型的机器人，融合了意图、注意力和情绪的机器人会更受欢迎。基于此，苹果把台灯作为原型，使用6自由度机械臂作为台灯主体，台灯加入了视觉、触觉和激光投影。激光投影可以投射各种提示信息和视频，视觉可以与人互动。例如，苹果在paper中介绍了几种功能：

把要浇花、绘画指导等通过激光投射出来，很直观的提示方式；
会把水杯、水果等推向你，就像人一样给你东西吃；
会随着音乐律动跳舞；
在完成功能过程中，与你不断互动，融入了情感。真的感叹苹果的创意和对人的喜好的研究水平，大家对于苹果的这个机器人怎么看？

AI领域紧跟最新研究趋势和内容的相关网站推荐

less than 1 minute read

Published: February 05, 2025

Papers with Code：专注于机器学习和深度学习领域，将计算机视觉等相关研究论文与 GitHub 代码实现关联，还有基准测试排名，能帮助了解最新趋势。
arXiv：是一个开放获取的预印本库，计算机科学领域包括大量计算机视觉的研究成果会在此上传，能让科研人员迅速公开他们的发现并得到同行反馈。
Google Scholar：订阅关键作者、主题（如 “low-light image enhancement”）来获取最新论文。可按引用数排序，筛选高影响力论文。或通过关键词搜索（如“CVPR 2025”或“computer vision latest research”），可以找到最新的论文和会议信息。
Paper Digest：Paper Digest团队会分析各大顶会如cvpr、AAAI、arxiv、iccv等历年发表的所有论文，依据研究论文和授权专利的引用情况，呈现每年最具影响力的论文。（强推）
Connected Papers：Connected Papers可以根据用户输入的一篇文献，构建可视化的文献网络图，展示相似文献以及基于共被引和耦合关系的相关文献，有助于发现高引用或 top 论文。
直接在浏览器搜索awesome cvpr 2024等关键词，有很多GitHub的仓库，整理了最优的论文。cv相关顶会有cvpr、iccv、eccv、NeurIPS、iclr、AAAI、siggraph等。
关注顶尖研究机构和实验室：（1）deepmind publications （2）meta ai research （3）open-mmlab （4）machine learning research at Apple，苹果发布的相关paper，苹果 CV 相关研究方向：低光增强、计算摄影、视觉 Transformer、目标检测、3D 视觉、增强现实等（5）高通AI research：高通主要专注于移动 AI、低功耗计算机视觉、神经网络加速、边缘计算（Edge AI）方面的研究，发表的论文也很多见于 CVPR、ICLR、NeurIPS 等顶会。

部署夜景增强模型Learning to See in the Dark以及gradio UI编程方法

9 minute read

Published: February 05, 2025

前面我们已经把Learning to See in the Dark的paper和原理进行了解读，现在把Learning to See in the Dark（后续简称SID模型）部署看一下效果。

Macbook本地部署DeepSeek，其他系统类似

less than 1 minute read

Published: February 01, 2025

本地部署完成后的效果如下图，整体与chatgpt类似，只是模型在本地推理。

DeepSeek-V3技术报告解读

6 minute read

Published: January 28, 2025

paper地址：DeepSeek_V3.pdf

AI-ISP论文Learning to See in the Dark解读

1 minute read

Published: January 20, 2025

论文地址：Learning to See in the Dark

量化技术Post-Training Quantization for Re-parameterization via Coarse & Fine Weight Splitting解读

1 minute read

Published: January 18, 2025

论文地址：[2312.10588] Post-Training Quantization for Re-parameterization via Coarse & Fine Weight Splitting

解析相机照片EXIF信息的原理和代码

1 minute read

Published: January 18, 2025

解析相机照片 EXIF 信息的原理可以归结为以下几个关键步骤和技术原理：

stable diffusion提示词技巧

less than 1 minute read

Published: January 11, 2025

提示词的基本原则：

mac配置stable diffusion以及模型出图优化

1 minute read

Published: January 08, 2025

1. 基础stable diffusion webui安装

swin transformer中相对位置编码解析

21 minute read

Published: January 02, 2025

在论文中，作者发现相对位置编码的效果会更好一些。

导出带有特征图shape的onnx

less than 1 minute read

Published: December 30, 2024

```python import onnx import onnxsim from onnx import shape_inference

Restormer模型代码解析

35 minute read

Published: December 27, 2024

上一篇我们对Restormer的论文进行了解析。这篇对Restormer的代码进行解析。

Restormer: Efficient Transformer for High-Resolution Image Restoration解读

1 minute read

Published: December 24, 2024

论文地址：Restormer: Efficient Transformer for High-Resolution Image Restoration。

raw域去噪论文Mobile Aware Denoiser Network (MADNet) for Quad Bayer Images解读

less than 1 minute read

Published: December 22, 2024

论文、代码和ppt地址：Mobile Aware Denoiser Network (MADNet) for Quad Bayer Images。

Swin transformer代码解读

190 minute read

Published: December 20, 2024

swin transformer的官方代码地址：Swin-transformer

一个简单实用全面的python logger创建方法

2 minute read

Published: December 19, 2024

```python import os import sys import logging import functools from termcolor import colored

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows解读

2 minute read

Published: December 16, 2024

论文、代码和ppt地址：swin transformer。

LSQ算法，LEARNED STEP SIZE QUANTIZATION解读

less than 1 minute read

Published: December 12, 2024

论文、代码和ppt地址：LSQ。代码地址: LSQplus

LSQ+: Improving low-bit quantization through learnable offsets and better initializationn解读

less than 1 minute read

Published: December 09, 2024

论文、代码和ppt地址：LSQ+。代码地址: LSQplus

HRNet，Deep High-Resolution Representation Learning for Visual Recognition解读

6 minute read

Published: November 27, 2024

论文、代码和ppt地址：HRNet。代码地址: hrnet

CREStereo, Practical Stereo Matching via Cascaded Recurrent Network with Adaptive Correlation解读

less than 1 minute read

Published: November 26, 2024

论文、代码和ppt地址：CREStereo

hdrnet,Deep Bilateral Learning for Real-Time Image Enhancement解读

3 minute read

Published: October 28, 2024

论文、代码和ppt地址：Deep Bilateral Learning for Real-Time Image Enhancement

python测试与调试 —— 在TestCase子类里验证相关的行为

less than 1 minute read

Published: October 28, 2024

在Python中编写测试的最经典办法是使用内置的unittest模块。例如，这里有个定义在utils.py文件里的工具函数，我们想验证它能不能正确地处理各种输入数据。

使用pytorch从头实现一个vit

15 minute read

Published: September 26, 2024

我们实现的目标是做image classification，使用MINIST数据集。

超分论文ESPCN代码实现和效果对比

4 minute read

Published: September 22, 2024

论文地址：Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network

ViT开山之作解读：An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

1 minute read

Published: September 12, 2024

论文地址：An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

超分论文解读：Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network

2 minute read

Published: August 31, 2024

论文地址：Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network

基础ISP流水线的架构分析——拜耳阵列图像传感器的主要ISP架构

less than 1 minute read

Published: August 29, 2024

ISP本身并不是一个标准化的对象，但数字视频的标准化却已持续进行了很长时间。1982年制定的Rec. ITU-R Rec. 601和 Rec. ITU-R BT. 656（也被称作CCIR601/656）首次对ISP的基本组件进行了标准化。

基础ISP流水线的架构分析——简介

less than 1 minute read

Published: August 28, 2024

ISP是一个对图像传感器捕获的原始图像执行各种图像处理算法。ISP 中包含了许多功能，这些功能在不同的 ISP

python并发与并行（十二） ———— 考虑用concurrent.futures实现真正的并行计算

2 minute read

Published: August 28, 2024

有些Python程序写到一定阶段，性能就再也上不去了。即便优化了代码，程序的执行速度可能还是达不到要求。考虑到现在的计算机所装配的CPU核心数量越来越多，所以我们很自然地就想到用并行方式来解决这个问题。那么接下来就必须思考，如何将代码所要执行的计算任务划分成多个独立的部分并在各自的核心上面平行地运行。

python并发与并行（十一） ———— 让asyncio的事件循环保持畅通，以便进一步提升程序的响应能力

6 minute read

Published: August 28, 2024

前一篇blog说明了怎样把采用线程所实现的项目逐步迁移到asyncio方案上面。迁移后的run_tasks协程，可以将多份输入文件通过tail_async协程正确地合并成一份输出文件。

python并发与并行（十） ———— 结合线程与协程，将代码顺利迁移到asyncio

10 minute read

Published: August 27, 2024

在前一篇中，我们用asyncio模块把通过线程来执行阻塞式I/O的TCP服务器迁移到了协程方案上面。当时我们一下子就完成了迁移，而没有分成多个步骤，这对于大型的项目来说，并不常见。如果项目比较大，那通常需要一点一点地迁移，也就是要边改边测，确保迁移过去的这一部分代码的效果跟原来相同。

Real-ESRGAN超分算法效果

less than 1 minute read

Published: August 22, 2024

上一篇blog我们详细介绍了Real-ESRGAN论文的原理，以及paper中的所有技术细节。这篇blog我们来看一下Real-ESRGAN的实际效果。

超分论文解读Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data

6 minute read

Published: August 16, 2024

本篇blog除了对论文内容进行了详实的翻译，同时对论文中的相关技术细节展开了说明和讨论，部分技术通过示例代码进行了说明。

python并发与并行（九） ———— 用asyncio改写通过线程实现的IO

13 minute read

Published: August 15, 2024

知道了协程的好处之后，我们可能就想把现有项目之中的代码全都改用协程来写，于是有人就担心，这样修改起来，工作量会不会比较大呢？所幸Python已经将异步执行功能很好地集成到语言里面了，所以我们很容易就能把采用线程实现的阻塞式I/O操作转化为采用协程实现的异步I/O操作。

python并发与并行（八） ———— 用协程实现高并发的I/O

3 minute read

Published: August 15, 2024

在前面几条里，我们以生命游戏为例，试着用各种方案解决I/O并行问题，这些方案在某些情况下确实可行，但如果同时需要执行的I/O任务有成千上万个，那么这些方案的效率就不太理想了

python并发与并行（七） ———— 如果必须用线程做并发，那就考虑通过ThreadPoolExecutor实现

3 minute read

Published: August 12, 2024

Python有个内置模块叫作concurrent.futures，它提供了ThreadPoolExecutor类。这个类结合了线程（Thread）方案与队列（Queue）方案的优势，可以用来平行地处理康威生命游戏里的那种I/O操作（参见前面讲的线程方案和队列方案）。

python并发与并行（六） ———— 正确的重构代码，以便用Queue做并发

47 minute read

Published: August 06, 2024

在前面“python并发与并行（五.2） ———— 不要在每次fan-out时都新建一批Thread实例”里面，大家看到，每次都手工创建一批线程并平行地执行I/O任务是有很多缺点的。这一条要介绍另一种方案，也就是用内置的queue模块里的Queue类实现多线程管道。

设计模式

1 minute read

Published: August 01, 2024

工厂模式

beam search decoding with CTC

less than 1 minute read

Published: July 30, 2024

beam search(束搜索) decoding是一种在语言模型、文本识别等sep2sep的场景中快速、高效的神经网络解码算法。结合前面几个blog，我们重点展开一下beam search在场景文本识别中的作用。

论文解析——What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis

less than 1 minute read

Published: July 26, 2024

论文paper地址：What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis

论文解析——An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition，CRNN算法

less than 1 minute read

Published: July 23, 2024

论文paper地址：An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

论文解析——Character Region Awareness for Text Detection，字符级文本检测CRAFT算法

less than 1 minute read

Published: July 21, 2024

这篇论文来自CVPR2019，paper地址：Character Region Awareness for Text Detection。代码：CRAFT-pytorch。

python并发与并行（五.2） ———— 不要在每次fan-out时都新建一批Thread实例

25 minute read

Published: June 28, 2024

想在Python里平行地做I/O，首先要考虑的工具当然是线程。但如果真用线程来表示fan-out模式中的执行路径，你就会发现，这样其实有很多问题。

python并发与并行（五.1） ———— 不要在每次fan-out时都新建一批Thread实例

7 minute read

Published: June 27, 2024

我们使用康威生命游戏的例子来解释这个专题。首先我们要实现一个康威生命游戏。

python并发与并行（四） ———— 用queue来协调多个线程之间的工作进度

9 minute read

Published: May 24, 2024

Python程序如果要同时执行多项任务，而这些任务又分别针对同一种产品的不同环节，那么就有可能得在它们之间进行协调。比较有用的一种协调方式是把函数拼接成管道。

python并发与并行（三） ———— 利用Lock防止多个线程争用同一份数据

1 minute read

Published: May 08, 2024

利用Lock防止多个线程争用同一份数据

python并发与并行（二） ———— 用线程执行阻塞式IO，但不要用它做并行计算

1 minute read

Published: May 07, 2024

用线程执行阻塞式IO，但不要用它做并行计算

python并发与并行（一） ———— 用subprocess管理子进程

less than 1 minute read

Published: May 07, 2024

并发（concurrency）指计算机似乎能在同一时刻做许多件不同的事情。例如，在只配有一个CPU核心的计算机上面，操作系统可以迅速切换这个处理器所运行的程序，因此尽管同一时刻最多只有一个程序在运行，但这些程序能够交替地使用这个核心，从而造成一种假象，让人觉得它们好像真的在同时运行。并行（parallelism）与并发的区别在于，它强调计算机确实能够在同一时刻做许多件不同的事情。例如，若计算机配有多个CPU核心，那么它就真的可以同时执行多个程序。每个CPU核心执行的都是自己的那个程序之中的指令，这些程序能够同时向前推进。

DIY相机（三）picamera2库手册解读

18 minute read

Published: November 07, 2023

使用QtGL作为preview的backend时，图像的输出大小是有限制的。

DIY相机（二）picamera2库

18 minute read

Published: October 31, 2023

上一篇我们说的是树莓派camera的libcamera库，提供了在命令行的对camera的操作功能。今天要说的是picamera2库，树莓派官方提供的picamera2库是针对libcamera 驱动提供的 python库。Picamera2仅支持Raspberry Pi OS Bullseye 以及更新的系统。

DIY相机（一）libcamera库

5 minute read

Published: October 27, 2023

相机选型

树莓派系统文件分析

4 minute read

Published: October 25, 2023

本篇blog来分析和总结下树莓派系统文件以及他们的作用。使用的系统是Raspberry Pi OS with desktop

torch.jit.trace与torch.jit.script

4 minute read

Published: October 14, 2023

Script mode通过torch.jit.trace或者torch.jit.script来调用。这两个函数都是将python代码转换为TorchScript的两种不同的方法。

PyTorch JIT和TorchScript

2 minute read

Published: October 11, 2023

PyTorch支持两种模式：eager模式和script模式。eager模式主要用于模型的编写、训练和调试，script模式主要是针对部署的，其包含PytorchJIT和TorchScript（一种在 PyTorch 中执行高效的序列化代码格式）。

flash attention 1和flash attention 2算法的python和triton实现

11 minute read

Published: October 03, 2023

transformers目前大火，但是对于长序列来说，计算很慢，而且很耗费显存。对于transformer中的self attention计算来说，在时间复杂度上，对于每个位置，模型需要计算它与所有其他位置的相关性，这样的计算次数会随着序列长度的增加而呈二次增长。在空间复杂度上，self attention需要存储一个矩阵来保存所有位置的相关性分数，这个矩阵的大小也会随着序列长度的增加而呈二次增长。因此，对于非常长的序列，这种二次复杂度会导致计算和内存消耗急剧增加，使得模型在处理这样的输入时会变得相对缓慢且需要大量内存。这也是为什么对于超长序列，可能需要采取一些策略，如切分成短序列进行处理，或者使用其他模型架构来替代传统的Transformer模型。

容易被忽视的CNN模型的感受野及其计算

3 minute read

Published: October 01, 2023

感受野可能是卷积神经网络中最重要的概念之一，在学术中也被广泛关注。几乎所有的目标检测方法都围绕感受野来设计其模型结构。这篇文章通过可视化的方法来表达感受野的信息，并且提供一用于计算任何CNN网络每一层感受野的程序。

模型量化

2 minute read

Published: September 28, 2023

模型量化分为后量化(Post-training Quantization, PTQ)和训练量化(Quantization aware training,QAT)。PTQ是直接将模型浮点权重转换为整数，QAT是将模型插入量化节点，之后再fine-tune调整模型的权重。

pytorch hook

4 minute read

Published: September 05, 2023

pytorch的hook机制允许我们在不修改模型class的情况下，去debug backward、查看forward的activations和修改梯度。hook是一个在forward和backward计算时可以被执行的函数。在pytorch中，可以对Tensor和nn.Module添加hook。hook有两种类型，forward hook和backward hook。