首页

【阿里】开源Qwen2.5-VL在视觉推理中的表现（32B）

模型：Qwen2.5-VL-32B-Instruct 模型体验地址：https://chat.qwen.ai/ 相比此前的 Qwen2.5-VL 系列模型，32B 模型有如下改进：回复更符合人类主观偏好：调整了输出风格，使回答更加详细、格式更规范，并更符合人类偏好。 ...

人工智能计算机视觉

edwin99

399 0 12个月前

【潞辰】Open-Sora 2.0开源权重、推理代码及训练过程

Open-Sora 2.0—— 全新开源的 SOTA（State-of-the-Art）视频生成模型正式发布，仅用 20 万美元（224 张 GPU）成功训练出商业级 11B 参数视频生成大模型，性能直追 HunyuanVideo 和 30B 参数的 Step-Video。权...

人工智能计算机视觉 SOTA

edwin99

421 0 1年前

【阿里】万相WAN2.1-1.4B大模型MacBook实测

当很多 AI 公司还就是否该走开源路线而感到左右为难时，阿里的技术团队又开源了一个新的模型 —— 万相（Wan）视频生成大模型（包括全部推理代码和权重，最宽松的开源协议）。经常玩视频生成模型的同学应该知道，当前的很多模型仍然面临多方面挑战，比如难以还原复杂的人物动作，处理不好...

人工智能计算机视觉

edwin99

200 0 1年前

DeepSeek VLM-R1纯文本迁移CV

待定。

人工智能计算机视觉

edwin99

206 0 1年前

DeepSeek- Janus论文分析

待定。

人工智能计算机视觉

edwin99

189 0 1年前

BiGR方法图像生成器开源分析

齐宪标等人发现，其实在应用于图像领域时，传统的自回归方法也有改进空间。他们把改进后的方法称为「BiGR 」，该方法建立在何恺明等人 MAR（masked autoregressive）工作的基础之上，并在一些方面实现了改进，成为了首个将生成和判别任务统一在同一框架内的条件生成模型。这意味着，BiGR...

人工智能计算机视觉

edwin99

208 0 1年前

Pepper-III图像生成器开源项目分析

待定。

人工智能计算机视觉

edwin99

200 0 1年前

【FaceChain】拓扑对齐人脸表征模型ToFR

本篇论文已被NeurIPS 2024接收，论文第一作者但俊来自浙江大学&FaceChain社区，共一作者刘洋来自伦敦国王学院&FaceChain社区，通讯作者孙佰贵来自阿里巴巴&FaceChain社区，还有合作作者包括帝国理工学院邓健康，FaceChain社区谢昊宇、李思远，...

人工智能计算机视觉

edwin99

207 0 1年前

Gradio开源项目自动构建Web应用程序

快速入门：https://www.gradio.app/guides/quickstart 项目地址：https://github.com/huggingface/blog/blob/main/gradio-5.md Gradio 是一个开源 Python 软件包，可让用户快速为...

人工智能计算机视觉智能体 Gradio

edwin99

221 0 1年前

【360AI】FancyVideo模型性能分析

论文作者之一 Ao Ma，硕士毕业于中科院计算所，曾在 MSRA 视觉计算组和阿里通义实验室进行学术研究和算法落地工作。目前是奇虎 360-AIGC 团队-视频生成方向负责人，长期致力于视觉生成方向研究和落地，以及开源社区建设。作者基于已经开源的 61 帧模型，实测效果如下。首先适配不同分辨...

人工智能计算机视觉

edwin99

193 0 1年前

OpenDiT开源模型VideoSys性能分析

自今年起，OpenAI 的 Sora 和其他基于 DiT 的视频生成模型在 AI 领域掀起了又一波浪潮。但由于起步较晚，视频生成领域的很多基础设施都还有待完善。今年 2 月份，新加坡国立大学尤洋团队开源的一个名为 OpenDiT 的项目为训练和部署 DiT 模型打开了新思路。这是一个易于使用、快速且...

人工智能计算机视觉 DiT

edwin99

199 0 1年前

DeepSeek DreamCraft3D论文

待定。

人工智能计算机视觉

edwin99

185 0 1年前

【腾讯】MLLM-VITA开源模型性能分析

待定。

人工智能计算机视觉多模态 MLLM

edwin99

197 0 1年前

视频编辑工具Clapper模型性能分析

待定。

人工智能计算机视觉

edwin99

186 0 1年前

【智谱】视频生成模型CogVideoX性能分析

待定。

人工智能计算机视觉

edwin99

182 0 1年前

筛选器

排序方式

文章分类

热门标签

筛选结果 46篇

【阿里】开源Qwen2.5-VL在视觉推理中的表现（32B）

【潞辰】Open-Sora 2.0开源权重、推理代码及训练过程

【阿里】万相WAN2.1-1.4B大模型MacBook实测

DeepSeek VLM-R1纯文本迁移CV

DeepSeek- Janus论文分析

BiGR方法图像生成器开源分析

Pepper-III图像生成器开源项目分析

【FaceChain】拓扑对齐人脸表征模型ToFR

Gradio开源项目自动构建Web应用程序

【360AI】FancyVideo模型性能分析

OpenDiT开源模型VideoSys性能分析

DeepSeek DreamCraft3D论文

【腾讯】MLLM-VITA开源模型性能分析

视频编辑工具Clapper模型性能分析

【智谱】视频生成模型CogVideoX性能分析

【阿里】开源Qwen2.5-VL在视觉推理中的表现（32B）

【潞辰】Open-Sora 2.0开源权重、推理代码及训练过程

【阿里】万相WAN2.1-1.4B大模型MacBook实测

DeepSeek VLM-R1纯文本迁移CV

DeepSeek- Janus论文分析

BiGR方法图像生成器开源分析

Pepper-III图像生成器开源项目分析

【FaceChain】拓扑对齐人脸表征模型ToFR

Gradio开源项目自动构建Web应用程序

【360AI】FancyVideo模型性能分析

OpenDiT开源模型VideoSys性能分析

DeepSeek DreamCraft3D论文

【腾讯】MLLM-VITA开源模型性能分析

视频编辑工具Clapper模型性能分析

【智谱】视频生成模型CogVideoX性能分析