Rohit Patel – 搞英语 → 看世界

如果我们遇到了 LLM 扩展障碍，AI 的未来会是什么样子？

Posted on 2025-08-16

为什么小型模型、规模化推理和人工智能代理可能是很多人担心 LL…

从零开始理解强化学习的模型训练

Posted on 2025-08-11

对 RLHF、TRPO、PPO、GRPO、DPO 和 RLAIF…

负对数似然、交叉熵和 KL 散度的直观处理

Posted on 2025-06-16

过去几个月，我一直在撰写上一篇文章“ 用中学数学从零开始理解法学…