算法博客
深度学习中常见的矩阵微分(Matrix Calculus)
常见的矩阵求导推导 + 速查表,掌握深度学习中梯度计算的数学原理
算法博客
Scaled Dot-Product Attention 的数学剖析
严格的数学推导 + 教学性解释,揭示 SDPA 的设计精髓
算法博客
重温Attention is all you need
结合可视化工具和论文,系统学习Transformer的核心原理
教程笔记
Hugo + PaperMod 从零搭建教程
万恶之源 —— 记录我的博客搭建之路
1
2