筛选结果 13篇

实战:Lluminate算法提升LLM创新能力
实战:Lluminate算法提升LLM创新能力

如果你让当今的 LLM 给你生成一个创意时钟设计,使用提示词「a creative time display」,它可能会给出这样的结果: ...

edwin99
edwin99
50 0 2个月前
【阶跃星辰】开源LLM最优超参工具
【阶跃星辰】开源LLM最优超参工具

阶跃星辰研究团队通过大规模实证探索,耗费了近 100 万 NVIDIA H800 GPU 小时(约百万美元),从头训练了 3,700 个不同规模,共计训了 ...

edwin99
edwin99
57 0 2个月前
DeepSeek开源周第六弹:DeepSeek-V3/R1推理系统概述

正在努力分析资料。

edwin99
edwin99
62 0 3个月前
DeepSeek开源周第五弹:3FS, Thruster for All DeepSeek Data Access
DeepSeek开源周第五弹:3FS, Thruster for All Dee...

DeepSeek团队开源了一个名为 3FS(Fire-Flyer File System)的系统。这是一种并行文件系统,它利用现代固态硬盘(SSD)和远程直接内...

edwin99
edwin99
51 0 3个月前
DeepSeek OpenSourceWeek第一弹:FlashMLA推理加速解码核分析
DeepSeek OpenSourceWeek第一弹:FlashMLA推理加速解...

第一个项目与推理加速有关。北京时间周一上午 9 点,刚一上班(同时是硅谷即将下班的时候),DeepSeek 兑现了自己的诺言,开源了一款用于 Hopper ...

edwin99
edwin99
27 0 3个月前
Kimi注意力框架MoBA分析:与DeepSeek-NDA的区别
Kimi注意力框架MoBA分析:与DeepSeek-NDA的区别

DeepSeek 发布了一篇新论文,提出了一种改进版的注意力机制 NSA;加上还有创始人兼 CEO 梁文锋亲自参与。但其实就在同一天,月之暗面也发布了一篇主...

edwin99
edwin99
24 0 3个月前
DeepSeek原生稀疏注意力NSA分析
DeepSeek原生稀疏注意力NSA分析

待定。

edwin99
edwin99
26 0 3个月前
Modded-NanoGPT在CPU/fp32上复现GPT-2项目llm.c
Modded-NanoGPT在CPU/fp32上复现GPT-2项目llm.c

今年 4 月,AI 领域大牛 Karpathy 一个仅用 1000 行代码即可在 CPU/fp32 上实现 GPT-2 训练的项目「llm.c」曾经引发机器...

edwin99
edwin99
26 0 4个月前
【Meta】Layer Skip端对端解决开销问题
【Meta】Layer Skip端对端解决开销问题

大型语言模型已在各个行业中广泛采用,但其高计算和内存要求会消耗大量能源,并且可能带来高昂的经济成本。为了应对这些挑战,Meta 提出了一种端到端解决方案 &md...

edwin99
edwin99
45 0 7个月前
FLash-VStream架构实战+性能分析
FLash-VStream架构实战+性能分析

待定。

edwin99
edwin99
23 0 10个月前
MLP代替方法KAN的实战报告分析
MLP代替方法KAN的实战报告分析

待定。

edwin99
edwin99
23 0 1年前