筛选结果 252篇

DeepSeek-VL2论文

正在努力分析资料。

edwin99
edwin99
65 0 3个月前
DeepSeek OpenSourceWeek第四弹:DualPipe + EPLB + 计算分析Profile-Data
DeepSeek OpenSourceWeek第四弹:DualPipe + EP...

DeepSeek 的开源周已经进行到了第四天(前三天报道见文末「相关阅读」)。今天这家公司一口气发布了两个工具和一个数据集:DualPipe、EPLB ...

edwin99
edwin99
59 0 3个月前
【阿里】万相WAN2.1-1.4B大模型MacBook实测
【阿里】万相WAN2.1-1.4B大模型MacBook实测

当很多 AI 公司还就是否该走开源路线而感到左右为难时,阿里的技术团队又开源了一个新的模型 —— 万相(Wan)视频生成大模型(包括全部...

edwin99
edwin99
20 0 3个月前
DeepSeek OpenSourceWeek第三弹:通用矩阵乘法库DeepGEMM
DeepSeek OpenSourceWeek第三弹:通用矩阵乘法库DeepGE...

DeepSeek 的开源周已经进行到了第三天。今天开源的项目名叫 DeepGEMM,是一款支持密集型和专家混合(MoE)GEMM 的 FP8 GEMM 库,...

edwin99
edwin99
28 0 3个月前
DeepSeek VLM-R1纯文本迁移CV

待定。

edwin99
edwin99
23 0 3个月前
DeepSeek OpenSourceWeek第二弹:MoE训练模型+EP通信库DeepEP
DeepSeek OpenSourceWeek第二弹:MoE训练模型+EP通信库...

项目链接:https://github.com/deepseek-ai/DeepEP   DeepSeek 发推说本周将是开源周(Open...

edwin99
edwin99
26 0 3个月前
DeepSeek OpenSourceWeek第一弹:FlashMLA推理加速解码核分析
DeepSeek OpenSourceWeek第一弹:FlashMLA推理加速解...

第一个项目与推理加速有关。北京时间周一上午 9 点,刚一上班(同时是硅谷即将下班的时候),DeepSeek 兑现了自己的诺言,开源了一款用于 Hopper ...

edwin99
edwin99
27 0 3个月前
DeepSeek-R1规模化强化学习训练:PPO

待定。

edwin99
edwin99
17 0 3个月前
Kimi注意力框架MoBA分析:与DeepSeek-NDA的区别
Kimi注意力框架MoBA分析:与DeepSeek-NDA的区别

DeepSeek 发布了一篇新论文,提出了一种改进版的注意力机制 NSA;加上还有创始人兼 CEO 梁文锋亲自参与。但其实就在同一天,月之暗面也发布了一篇主...

edwin99
edwin99
24 0 3个月前
DeepSeek原生稀疏注意力NSA分析
DeepSeek原生稀疏注意力NSA分析

待定。

edwin99
edwin99
26 0 3个月前
低成本监督微调DeepSeek V3/R1 671B项目分析

DeepSeek V3/ R1 火爆全网,基于原始模型的解决方案和 API 服务已随处可见,陷入低价和免费内卷。如何站在巨人肩膀上,通过后训练(post-tra...

edwin99
edwin99
27 0 3个月前
DeepSeek-V3论文

待定。

edwin99
edwin99
23 0 3个月前
Goedel-Prover证明器与DeepSeek-Prover推理模型对比
Goedel-Prover证明器与DeepSeek-Prover推理模型对比

最近一段时间,以 DeepSeek-R1 为代表的大型推理模型可谓是「当红炸子鸡」,不过整体来说,这些模型所做的推理都属于非形式化推理(informal r...

edwin99
edwin99
23 0 3个月前
阿里云ECS + EAIS软件包部署Stable-DIffusion

EAIS 弹性加速计算 配置总结: 远程连接ECS实例 安装Docker 安装Docker依赖包: apt-ge...

edwin99
edwin99
41 0 3个月前
MiniMax震撼开源,突破传统Transformer架构,4560亿参数,支持400万长上下文
MiniMax震撼开源,突破传统Transformer架构,4560亿参数,支持...

MiniMax 开源了最新的基础语言模型 MiniMax-Text-01 和视觉多模态模型 MiniMax-VL-01。新模型的最大亮点是,在业内首次大规模实现...

edwin99
edwin99
28 0 3个月前