突破AI算力瓶颈：Sakana AI联合英伟达实现GPU推理速度提升30%

查找币:余老师 | 行业资讯 | 2026-05-10 08:13 | 3 次浏览 | 0 条回复

查找币行业资讯行业资讯 Web3安全区块链

**发布时间：2025年X月X日** **来源：查找币安全团队 · 技术洞察** --- ## 一、前沿动态：大模型计算效率迎来新突破在人工智能领域，大模型的训练与推理效率始终是制约产业发展的核心瓶颈。查找币安全团队监测到，Sakana AI与英伟达（NVIDIA）近期联合发布了一项引人注目的开源成果——**TwELL稀疏数据格式及其配套加速内核**。这一技术方案直接针对GPU在执行大模型任务时的无效计算问题，在保持模型准确率不变的前提下，实现了推理速度最高30%的提升，训练速度提升24%，并显著降低了峰值显存占用。该成果已于近日在开源社区公开，标志着大模型底层硬件优化迈出了关键一步。 --- ## 二、技术解析：为什么大模型算力被“浪费”了？ ### 1. 前馈层（FFN）的“休眠神经元”问题大模型的核心组件之一——前馈层（Feed-Forward Network, FFN），占据了模型绝大部分的参数和计算资源。然而，研究数据揭示了一个惊人的事实： - 在每次生成文字时，**超过80%的神经元处于“休眠状态”**（激活值接近于零） - 这些神经元对最终输出结果几乎毫无贡献 - 传统的GPU计算方式却必须“一视同仁”地处理所有神经元这意味着，大量算力被用于计算那些“毫无意义”的数据。 ### 2. GPU的“整齐划一”困境现代GPU架构天生擅长处理**规整的密集矩阵计算**，即所有数据排列整齐、同步运算。然而，当需要跳过那些“无效”神经元时，GPU面临一个悖论： - 如果采用传统方法去“挑出”散落的有用数据，**寻找和读取这些数据本身的额外开销**，会完全抵消掉省下的算力 - 这种“数据搬运”成本，使得看似聪明的稀疏计算方案在实际应用中反而效率更低这就是业内常说的**硬件魔咒**：GPU擅长“蛮力计算”，却不擅长“精确筛选”。 --- ## 三、TwELL格式：重新设计数据与硬件的协作方式 Sakana AI与英伟达推出的TwELL格式，正是为了打破这一魔咒而设计。其核心思路是：**让数据格式主动适应GPU的并行计算逻辑**。 ### 关键创新点 1. **基于Tile的数据切分** - 不再像传统稀疏计算方法那样跨区域拼凑非零数据 - 而是将数据切成GPU最擅长处理的小方块（tile） - 每个计算核心可以在本地直接打包有用的数据 2. **消除全局显存读写** - 数据在本地完成打包，无需频繁访问全局显存 - 彻底省去了耗时的全局显存读写操作 - 完美融入现代芯片的加速流水线 3. **兼容现有硬件架构** - 该方案基于英伟达H100 GPU进行优化 - 不改变底层硬件，仅通过软件层数据格式创新实现性能提升 ### 实测数据验证在**15亿参数模型**的实测中，TwELL格式展现出惊人效果： | 指标 | 优化前 | 优化后 | 提升幅度 | |------|--------|--------|----------| | 推理速度 | 基准 | 提升30% | 显著加速 | | 训练速度 | 基准 | 提升24% | 明显缩短 | | 峰值显存 | 基准 | 大幅降低 | 资源节省 | 更值得注意的是，只需在训练时加入**轻微的正则化**，就能将真正需要计算的神经元比例压低到**不足2%**。而经过七项下游任务测试，模型表现**未出现任何下降**。 --- ## 四、规模效应：模型越大，收益越显著研究数据还揭示了一个重要规律：**模型参数量越大，休眠的神经元就越多**。具体数据对比： - 20亿参数模型的非零神经元比例，比5亿模型**低38%** - 这意味着，随着模型规模的增长，TwELL格式的优化效果将呈放大趋势对于正在追求千亿、万亿参数大模型的行业而言，这一发现意义重大。**当模型规模越大，底层硬件优化的性能红利就越可观**。 --- ## 五、行业影响与安全视角 ### 对AI基础设施的影响 1. **降低算力门槛**：对于中小型企业和研究机构，同样的GPU算力可以支持更大规模的模型训练 2. **加速模型迭代**：训练速度提升24%，意味着研发周期缩短近四分之一 3. **降低运营成本**：峰值显存下降，意味着更少的硬件投入和更低的电力消耗 ### 安全视角的思考查找币安全团队认为，这一技术突破还带来了几个值得关注的安全议题： - **模型效率与安全平衡**：跳过80%神经元的同时，是否可能引入对抗性攻击的新路径？需要持续跟踪验证 - **开源生态的信任链**：作为开源项目，TwELL格式的代码审计和供应链安全同样不可忽视 - **硬件依赖风险**：当前方案主要针对英伟达H100优化，未来向其他硬件平台迁移时，可能面临兼容性挑战 --- ## 六、结语 Sakana AI与英伟达联合推出的TwELL格式，为大模型的高效计算提供了一条极具前景的路径。它跳出了传统稀疏计算的思维定式，通过重新设计数据与硬件的协作方式，实现了在不损失模型准确率的前提下，大幅提升计算效率。随着大模型向更大规模演进，这类底层优化技术的价值将愈发凸显。查找币安全团队将持续关注AI基础设施领域的技术突破，并从安全、合规、信任等维度进行深度分析。 --- *本文由查找币安全团队整理发布*

突破AI算力瓶颈：Sakana AI联合英伟达实现GPU推理速度提升30%

查找币安全研究院

主题延伸阅读