筛选器
筛选结果 252篇

DeepSeek OpenSourceWeek第四弹:DualPipe + EP...
DeepSeek 的开源周已经进行到了第四天(前三天报道见文末「相关阅读」)。今天这家公司一口气发布了两个工具和一个数据集:DualPipe、EPLB ...

【阿里】万相WAN2.1-1.4B大模型MacBook实测
当很多 AI 公司还就是否该走开源路线而感到左右为难时,阿里的技术团队又开源了一个新的模型 —— 万相(Wan)视频生成大模型(包括全部...

DeepSeek OpenSourceWeek第三弹:通用矩阵乘法库DeepGE...
DeepSeek 的开源周已经进行到了第三天。今天开源的项目名叫 DeepGEMM,是一款支持密集型和专家混合(MoE)GEMM 的 FP8 GEMM 库,...

DeepSeek OpenSourceWeek第二弹:MoE训练模型+EP通信库...
项目链接:https://github.com/deepseek-ai/DeepEP DeepSeek 发推说本周将是开源周(Open...

DeepSeek OpenSourceWeek第一弹:FlashMLA推理加速解...
第一个项目与推理加速有关。北京时间周一上午 9 点,刚一上班(同时是硅谷即将下班的时候),DeepSeek 兑现了自己的诺言,开源了一款用于 Hopper ...

Kimi注意力框架MoBA分析:与DeepSeek-NDA的区别
DeepSeek 发布了一篇新论文,提出了一种改进版的注意力机制 NSA;加上还有创始人兼 CEO 梁文锋亲自参与。但其实就在同一天,月之暗面也发布了一篇主...

低成本监督微调DeepSeek V3/R1 671B项目分析
DeepSeek V3/ R1 火爆全网,基于原始模型的解决方案和 API 服务已随处可见,陷入低价和免费内卷。如何站在巨人肩膀上,通过后训练(post-tra...

Goedel-Prover证明器与DeepSeek-Prover推理模型对比
最近一段时间,以 DeepSeek-R1 为代表的大型推理模型可谓是「当红炸子鸡」,不过整体来说,这些模型所做的推理都属于非形式化推理(informal r...
阿里云ECS + EAIS软件包部署Stable-DIffusion
EAIS 弹性加速计算 配置总结: 远程连接ECS实例 安装Docker 安装Docker依赖包: apt-ge...

MiniMax震撼开源,突破传统Transformer架构,4560亿参数,支持...
MiniMax 开源了最新的基础语言模型 MiniMax-Text-01 和视觉多模态模型 MiniMax-VL-01。新模型的最大亮点是,在业内首次大规模实现...