筛选结果 252篇

DeepSeek- Janus论文分析

待定。

edwin99
edwin99
28 0 4个月前
【PrimeIntellect】INTELLECT-1去中心化模型开源分析
【PrimeIntellect】INTELLECT-1去中心化模型开源分析

11 月 22 日,Prime Intellect 宣布通过去中心化方式训练完成了一个 10B 模型。30 号,他们开源了一切,包括基础模型、检查点、后训练模型...

edwin99
edwin99
24 0 4个月前
【通义千问】QwQ-32B-Preview推理能力评测
【通义千问】QwQ-32B-Preview推理能力评测

知名数学家、加州大学洛杉矶分校教授、菲尔茨奖得主陶哲轩(Terence Tao)介绍了第二届 AIMO 竞赛的最新进展。比赛在数据竞赛平台 Kaggle 上已经...

edwin99
edwin99
29 0 4个月前
语音模型GLM-4-Voice微调重庆话

收集重庆话语音-文本数据集 语音数据:需包含重庆话的语音样本,覆盖多种场景(如日常对话、问答、故事讲述),并标注对应的文本转录。建议时长至少数...

edwin99
edwin99
31 0 4个月前
BiGR方法图像生成器开源分析
BiGR方法图像生成器开源分析

齐宪标等人发现,其实在应用于图像领域时,传统的自回归方法也有改进空间。他们把改进后的方法称为「BiGR 」,该方法建立在何恺明等人 MAR(masked aut...

edwin99
edwin99
31 0 4个月前
Pepper-III图像生成器开源项目分析
Pepper-III图像生成器开源项目分析

待定。

edwin99
edwin99
29 0 4个月前
【Ai2团队】Tulu-3模型数据、混合方法、评估框架
【Ai2团队】Tulu-3模型数据、混合方法、评估框架

在最近关于「Scaling Law 是否撞墙」的讨论中,后训练(post-training)被寄予厚望。众所周知,近期发布的 OpenAI o1 在数学、 ...

edwin99
edwin99
23 0 4个月前
Modded-NanoGPT在CPU/fp32上复现GPT-2项目llm.c
Modded-NanoGPT在CPU/fp32上复现GPT-2项目llm.c

今年 4 月,AI 领域大牛 Karpathy 一个仅用 1000 行代码即可在 CPU/fp32 上实现 GPT-2 训练的项目「llm.c」曾经引发机器...

edwin99
edwin99
28 0 4个月前
【斯坦福团队】STORM在LLM下表现论文分析
【斯坦福团队】STORM在LLM下表现论文分析

今年 4 月,斯坦福大学推出了一款利用大语言模型(LLM)辅助编写类维基百科文章的神器。它就是开源的 STORM,可以在三分钟左右将你输入的主题转换为长篇文章或...

edwin99
edwin99
33 0 4个月前
【DeepMind团队】SynthID-Text水印技术开源实战
【DeepMind团队】SynthID-Text水印技术开源实战

现如今,大型语言模型(LLM)生成的内容已经充斥了整个互联网,并且这些模型还能模仿各种类似真人的语气和行文风格,让人难以分辨眼前的文本究竟来自人类还是 AI。这...

edwin99
edwin99
27 0 7个月前
【浙大周晟团队】NoisyGL针对标签噪声下图NN基准
【浙大周晟团队】NoisyGL针对标签噪声下图NN基准

论文标题:NoisyGL: A Comprehensive Benchmark for Graph Neural Networks under La...

edwin99
edwin99
34 0 7个月前
【Meta】自学习评估器
【Meta】自学习评估器

Meta 在 8 月发表了一篇题为《Self-Taught Evaluators》的论文,提出了自学习评估器,用于生成合成偏好数据来训练奖励模型,无需依赖人...

edwin99
edwin99
31 0 7个月前
【Meta】MEXMA
【Meta】MEXMA

MEXMA 是一种新型预训练跨语言句子编码器。在训练过程中,通过结合 token 层级和句子层级的目标,MEXMA 的表现优于以往的方法。研究团队发现,之前...

edwin99
edwin99
38 0 7个月前
【Meta】有关轻量级独立代码库Lingua的分析

Lingua 是一个轻量级且独立的代码库,旨在助力大规模训练语言模型。Lingua 将使人们更容易将概念转化为实际实验,并优先考虑简单性和可复用性以加速研究...

edwin99
edwin99
30 0 7个月前
【Meta】Layer Skip端对端解决开销问题
【Meta】Layer Skip端对端解决开销问题

大型语言模型已在各个行业中广泛采用,但其高计算和内存要求会消耗大量能源,并且可能带来高昂的经济成本。为了应对这些挑战,Meta 提出了一种端到端解决方案 &md...

edwin99
edwin99
47 0 7个月前