首页

实战：Lluminate算法提升LLM创新能力

如果你让当今的 LLM 给你生成一个创意时钟设计，使用提示词「a creative time display」，它可能会给出这样的结果：但近日的一项研究成果却可以让 LLM 设计出下面这些让人眼前一亮的时钟，而使用的提示词却和上面的一样，这个算法叫做Lluminate，来自洛...

人工智能遗传算法进化算法 LLM

edwin99

409 0 1年前

【阶跃星辰】开源LLM最优超参工具

阶跃星辰研究团队通过大规模实证探索，耗费了近 100 万 NVIDIA H800 GPU 小时（约百万美元），从头训练了 3,700 个不同规模，共计训了 100 万亿个 token，揭示了 LLM 超参数优化的全新的普适性缩放规律，为更好地提升 LLM 性能，提供了开箱即用的工具。该研究也是第...

人工智能自然语言处理 LLM AI工具

edwin99

405 0 1年前

DeepSeek开源周第六弹：DeepSeek-V3/R1推理系统概述

正在努力分析资料。

人工智能自然语言处理 LLM 算法优化

edwin99

416 0 1年前

DeepSeek开源周第五弹：3FS, Thruster for All DeepSeek Data Access

DeepSeek团队开源了一个名为 3FS（Fire-Flyer File System）的系统。这是一种并行文件系统，它利用现代固态硬盘（SSD）和远程直接内存访问（RDMA）网络的全部带宽，能够加速和推动 DeepSeek 平台上所有数据访问操作。它有以下优势： ...

人工智能自然语言处理 LLM 算法优化

edwin99

435 0 1年前

DeepSeek OpenSourceWeek第一弹：FlashMLA推理加速解码核分析

第一个项目与推理加速有关。北京时间周一上午 9 点，刚一上班（同时是硅谷即将下班的时候），DeepSeek 兑现了自己的诺言，开源了一款用于 Hopper GPU 的高效型 MLA 解码核：FlashMLA。项目地址：https://github.com/deepseek-ai/Flas...

人工智能自然语言处理 LLM 算法优化

edwin99

215 0 1年前

Kimi注意力框架MoBA分析：与DeepSeek-NDA的区别

DeepSeek 发布了一篇新论文，提出了一种改进版的注意力机制 NSA；加上还有创始人兼 CEO 梁文锋亲自参与。但其实就在同一天，月之暗面也发布了一篇主题类似的论文，并且同样巧合的是，月之暗面创始人兼 CEO 杨植麟也是该论文的署名作者之一。并且不同于 DeepSeek 只发布了一篇论文，月...

人工智能自然语言处理算法优化 LMM

edwin99

192 0 1年前

DeepSeek原生稀疏注意力NSA分析

待定。

人工智能自然语言处理 LLM 算法优化

edwin99

202 0 1年前

Modded-NanoGPT在CPU/fp32上复现GPT-2项目llm.c

今年 4 月，AI 领域大牛 Karpathy 一个仅用 1000 行代码即可在 CPU/fp32 上实现 GPT-2 训练的项目「llm.c」曾经引发机器学习社区的热烈讨论。llm.c 旨在大幅简化大模型的训练，ta 使用纯 C 语言 / CUDA，不需要 245MB 的 PyTorch 或 ...

人工智能 LLM CUDA 算法优化

edwin99

194 0 1年前

【Meta】Layer Skip端对端解决开销问题

大型语言模型已在各个行业中广泛采用，但其高计算和内存要求会消耗大量能源，并且可能带来高昂的经济成本。为了应对这些挑战，Meta 提出了一种端到端解决方案 ——Layer Skip，以加快 LLM 在新数据上的生成时间，而无需依赖专门的硬件或软件。论文链接：ht...

人工智能 LLM 算法优化

edwin99

204 0 1年前

FLash-VStream架构实战+性能分析

待定。

人工智能计算机视觉 LLM 算法优化

edwin99

206 0 1年前

【陈丹琦团队】简单编偏好优化SimPO-8B开源项目技术报告分析

待定。

人工智能自然语言处理 LLM 算法优化

edwin99

187 0 1年前

MLP代替方法KAN的实战报告分析

待定。

人工智能算法优化 KAN CKAN

edwin99

185 0 1年前

带神经补偿频谱剪枝高斯场SUNDAE开源项目分析

待定。

数据结构与算法算法优化

edwin99

202 0 1年前

筛选器

排序方式

文章分类

热门标签

筛选结果 13篇

实战：Lluminate算法提升LLM创新能力

【阶跃星辰】开源LLM最优超参工具

DeepSeek开源周第六弹：DeepSeek-V3/R1推理系统概述

DeepSeek开源周第五弹：3FS, Thruster for All Dee...

DeepSeek OpenSourceWeek第一弹：FlashMLA推理加速解...

Kimi注意力框架MoBA分析：与DeepSeek-NDA的区别

DeepSeek原生稀疏注意力NSA分析

Modded-NanoGPT在CPU/fp32上复现GPT-2项目llm.c

【Meta】Layer Skip端对端解决开销问题

FLash-VStream架构实战+性能分析

【陈丹琦团队】简单编偏好优化SimPO-8B开源项目技术报告分析

MLP代替方法KAN的实战报告分析

带神经补偿频谱剪枝高斯场SUNDAE开源项目分析

实战：Lluminate算法提升LLM创新能力

【阶跃星辰】开源LLM最优超参工具

DeepSeek开源周第六弹：DeepSeek-V3/R1推理系统概述

DeepSeek开源周第五弹：3FS, Thruster for All DeepSeek Data Access

DeepSeek OpenSourceWeek第一弹：FlashMLA推理加速解码核分析

Kimi注意力框架MoBA分析：与DeepSeek-NDA的区别

DeepSeek原生稀疏注意力NSA分析

Modded-NanoGPT在CPU/fp32上复现GPT-2项目llm.c

【Meta】Layer Skip端对端解决开销问题

FLash-VStream架构实战+性能分析

【陈丹琦团队】简单编偏好优化SimPO-8B开源项目技术报告分析

MLP代替方法KAN的实战报告分析

带神经补偿频谱剪枝高斯场SUNDAE开源项目分析