设为首页加入收藏
  • 首页
  • 热点
  • 知识
  • 时尚
  • 探索
  • 综合
  • 娱乐
  • 当前位置:首页 >风风风 >推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

    推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

    发布时间:2025-07-14 08:57:15 来源:视角吃瓜网- 每天追踪文化视角,乐享丰富时光 作者:风事汇

    2025 年 1 月 20 日 Kimi k1.5 正式发布,推特伴随着工艺报告的热帖公布,有网友表示:“这应该是因为艺全球范围内,除 OpenAI 之外的作团公司首次实现 o1 正式版的多模态推理性能了吧!”

    一时间,项工Kimi k1.5 成了话题王者。推特泰国交换生整套流出

    但在一个月后的热帖 2 月 24 日,X 上出现了一篇关于 Kimi k1.5 的因为艺工艺爆料帖,博主直言 k1.5 所用到的作团强化学习运算规则,其实是项工借鉴了自己在 24 年 5 月提出的一种名为 SPPO 的工艺。

    消息一出,推特瞬间吸引了数万人关注。热帖

    推特热帖:k1.5 很牛,因为艺因为借鉴了 UCLA 与 CMU 合作团队的作团这项工艺

    Kimi k1.5 背后的 SPPO 工艺

    在这则爆料中,博主 Yue Wu 先是项工对 SPPO 进行了简单解释,并且附上了相关论文(https://arxiv.org/abs/2405.00675),简单来说,SPPO是一种自博弈运算规则,最初的动机来源于刻画广泛意义上的人类偏好,并且使用了如下图所示的平方损失函数:

    推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的<strong>知乎女网红封号合集</strong>这项工艺

    值得一提的是,点开论文链接,你会发现原来 Yue Wu  和 Zhiqing Sun 同为这篇文章的第一作者。

    推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

    紧接着,他开始对 SPPO 工艺进行解析:

    通过迭代求解上式中的 theta_t,我们可以得到一个与人类偏好对齐良好的语言模型。SPPO 使用胜率(红色部分)作为奖励,并用常数近似基线(蓝色部分)。

    推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

    让我们感兴趣的是,我们发现它与 RLHF 目标的策略梯度有着深层的联系:如果我们直接用普通的策略梯度优化 RLHF (人类反馈强化学习)目标会怎样?根据策略梯度定理,策略梯度实际上也具有平方损失形式(蓝色项是策略梯度中的基线):

    推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

    从数学上,我们证明了 SPPO 的平方损失等价于普通策略梯度的一种半在线变体:

    SPPO 中的胜率充当奖励函数(红色部分)。

    分区函数项自然地成为(软)值函数(蓝色部分)。

    推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

    那么这到底意味着什么呢?

    标准策略梯度(PPO、GRPO、REINFORCE)在每一步都收集遵循当前策略的样本。

    SPPO 在每次迭代开始时只采样一次,然后通过平方损失进行优化。

    这使得 SPPO 成为一种轻量级的 RLHF 方法——无需即时生成!

    推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

    上述分析揭示了大型语言模型(LLM)后训练阶段一个有趣的增长趋势:

    离线 DPO(IPO、KTO 等)取代 RLHF(奖励模型 + 强化学习)

    迭代 DPO、SPPO 等方法将离线方法转化为在线对齐方法

    更加精细的迭代 → 回归到在线强化学习

    推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

    鉴于 GRPO(Deepseek-R1)和平方损失(Kimi k1.5)的成功,端到端强化学习的强大作用愈发凸显,或许在大型语言模型(LLM)后训练阶段无需额外技巧——价值函数、广义优势估计(GAE),甚至梯度裁剪都无需使用。

    推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

    另一个简单但有趣的发现是,他们发现 SPPO 暗中在词汇级别优化最优最大熵策略。其平方损失隐含地最小化了学习到的策略与最优词汇级别策略之间的 KL 散度。

    推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

    在我们后续的研究 GPO 中,我们直接最小化相对奖励与对数比率之间的平方损失。这两项工作中的平方损失等价于策略梯度,但它是以迭代的方式进行的。

    推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

    SPPO 工艺背后的科研大牛

    除了提出助力 Kimi k1.5 大获成功的 SPPO 工艺外,Wu Yue 也是一个学术背景很强的科研大牛。他本科期间师从北京大学的王立威教授,博士期间师从加利福尼亚大学洛杉矶分校的顾全全教授,目前以博士后研究员的身份在普林斯顿大学机器智能实验室继续着自己的科研之路。推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

    除此之外,2023 年至今他一共参与发布了 9 篇 Paper,其中 3 篇均为第一作者。

    推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

    强大的学术背景之外,Wu Yue 的实习经历也非常加分。2022 年至 2024 年,他分别在 NEC 美研院、字节美国 AI lab和 Meta 工作实习。在 NEC 美研院期间,Wu Yue 从事个性化联邦学习研究,并开发了一种基于混合模型的方法,该方法被 ICML 2023 接受发表;在字节美国 AI lab 时,他专注于药品发现领域的多构象生成,将分子动力学的物理先验纳入基于扩散的生成模型,相关成果被 ICML 2024 接受;来到 Meta 后,Wu Yue 又致力于词汇级别奖励建模和新架构设计,用于一般人类偏好和一般偏好优化,为生成式机器智能的增长做出了贡献。

    推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺雷峰网(公众号:雷峰网)还了解到,与他同为第一作者的 Zhiqing Sun ,目前已经从 CMU 毕业,并在今年 2 月加入 OpenAI。

    推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺


    雷峰网原创文章,未经授权禁止转载。详情见转载须知。

    推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

    • 上一篇:印度德里地区发生4.5级地震 多地震感强烈
    • 下一篇:“从未宣布暂停对乌军援” 美方说法又变了

      相关文章

      • 在 AI 战场里拿掉英特尔,PC 能活吗?
      • 豆包视频生成大模型正式发布,首次突破多主体互动难关
      • 贾扬清一吐为快:要想赚钱,AI模型到底该大该小?
      • 人形机器人公司 Foundation 融资 1100 万美元;OpenAI 聘请前 Meta 高管领导战略计划丨AI情报局
      • 女子自曝怀孕期间摆烂上班丈夫是市副处?官方通报
      • 徐凌杰创立魔形智能,国际头部GPU高管加盟
      • AI VC Radical Ventures 融资近 8 亿美元,李飞飞、Hinton支持;谷歌发布四款 AI 手机丨AI情报局
      • 开源公司 Grafana Labs 融资 2.7 亿美元;a16z 发布全球 Top100 AI 应用:字节美图上榜丨AI情报局
      • Pieter Abbeel 新工作“大世界模型”:轻松玩转1小时长视频,一对一QA视频内容细节
      • DeepMind 危,OpenAI 押注成立六个月 AI 药物发现公司;四川具身人形机器人科技公司成立,彭倍教授牵头丨AI情报局

        随便看看

      • 体育中考「上难度」,视觉 AI 下场「减负」
      • 全球首发!无问芯穹发布千卡规模异构芯片混训平台,筑基面向MxN生态格局的AI Native基础设施
      • 达摩院跨入 AIGC 深水区,发布一站式 AI 视频创作平台「寻光」
      • 成立996天,MiniMax 每日与世界的30亿次交互
      • 外交部:美对铜加征关税不符合任何一方利益
      • 成立996天,MiniMax 每日与世界的30亿次交互
      • Jim Gao:曾助谷歌节能40%的AI专家,如今致力打造“虚拟工厂操作员”
      • 具身智能构型之争:人形、灵巧手、双足,谁是最终 C 位?
      • 上海AI实验室开源发布高质量语料“万卷CC”
      • 00后创业胡雅婷:相比连续创业者,年轻人的优势是做“新模态”。
      • Copyright © 2025 Powered by 推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺,视角吃瓜网- 每天追踪文化视角,乐享丰富时光  sitemap