筛选器
筛选结果 13篇

实战:Lluminate算法提升LLM创新能力
如果你让当今的 LLM 给你生成一个创意时钟设计,使用提示词「a creative time display」,它可能会给出这样的结果: ...

【阶跃星辰】开源LLM最优超参工具
阶跃星辰研究团队通过大规模实证探索,耗费了近 100 万 NVIDIA H800 GPU 小时(约百万美元),从头训练了 3,700 个不同规模,共计训了 ...

DeepSeek开源周第五弹:3FS, Thruster for All Dee...
DeepSeek团队开源了一个名为 3FS(Fire-Flyer File System)的系统。这是一种并行文件系统,它利用现代固态硬盘(SSD)和远程直接内...

DeepSeek OpenSourceWeek第一弹:FlashMLA推理加速解...
第一个项目与推理加速有关。北京时间周一上午 9 点,刚一上班(同时是硅谷即将下班的时候),DeepSeek 兑现了自己的诺言,开源了一款用于 Hopper ...

Kimi注意力框架MoBA分析:与DeepSeek-NDA的区别
DeepSeek 发布了一篇新论文,提出了一种改进版的注意力机制 NSA;加上还有创始人兼 CEO 梁文锋亲自参与。但其实就在同一天,月之暗面也发布了一篇主...


Modded-NanoGPT在CPU/fp32上复现GPT-2项目llm.c
今年 4 月,AI 领域大牛 Karpathy 一个仅用 1000 行代码即可在 CPU/fp32 上实现 GPT-2 训练的项目「llm.c」曾经引发机器...

【Meta】Layer Skip端对端解决开销问题
大型语言模型已在各个行业中广泛采用,但其高计算和内存要求会消耗大量能源,并且可能带来高昂的经济成本。为了应对这些挑战,Meta 提出了一种端到端解决方案 &md...



