【AI大模型前沿】昆仑万维开源Skywork-R1V3：38B多模态推理模型，高考数学142分刷新开源SOTA

系列篇章💥

No.	文章
1	【AI大模型前沿】深度剖析瑞智病理大模型 RuiPath：如何革新癌症病理诊断技术
2	【AI大模型前沿】清华大学 CLAMP-3：多模态技术引领音乐检索新潮流
3	【AI大模型前沿】浙大携手阿里推出HealthGPT：医学视觉语言大模型助力智能医疗新突破
4	【AI大模型前沿】阿里 QwQ-32B：320 亿参数推理大模型，性能比肩 DeepSeek-R1，免费开源
5	【AI大模型前沿】TRELLIS：微软、清华、中科大联合推出的高质量3D生成模型
6	【AI大模型前沿】Migician：清华、北大、华科联手打造的多图像定位大模型，一键解决安防监控与自动驾驶难题
7	【AI大模型前沿】DeepSeek-V3-0324：AI 模型的全面升级与技术突破
8	【AI大模型前沿】BioMedGPT-R1：清华联合水木分子打造的多模态生物医药大模型，开启智能研发新纪元
9	【AI大模型前沿】DiffRhythm：西北工业大学打造的10秒铸就完整歌曲的AI歌曲生成模型
10	【AI大模型前沿】R1-Omni：阿里开源全模态情感识别与强化学习的创新结合
11	【AI大模型前沿】Qwen2.5-Omni：阿里巴巴的多模态大模型，实现看、听、说、写一体化
12	【AI大模型前沿】SmolDocling：256M参数的轻量级多模态文档处理利器，10分钟搞定百页PDF
13	【AI大模型前沿】Stable Virtual Camera：Stability AI 推出的2D图像转3D视频模型，一键生成沉浸式视频
14	【AI大模型前沿】阿里 Qwen3 震撼开源，模型新王诞生，开启全球大模型新纪元
15	【AI大模型前沿】InternVL：OpenGVLab开源多模态大模型，解锁视觉问答与多语言翻译的全能应用图鉴
16	【AI大模型前沿】Fin-R1：上海财经大学联合财跃星辰推出的金融推理大模型，凭7B参数拿下评测第二，离行业第一仅差3分
17	【AI大模型前沿】Med-R1：基于强化学习的医疗视觉语言模型，突破跨模态医学推理的普适性
18	【AI大模型前沿】Baichuan-M1-14B：百川智能推出专为医疗优化的开源大语言模型
19	【AI大模型前沿】一键生成宫崎骏动画风，EasyControl Ghibli 让照片秒变吉卜力艺术品
20	【AI大模型前沿】TxGemma：谷歌推出的高效药物研发大模型，临床试验预测准确率超90%
21	【AI大模型前沿】F5R-TTS：腾讯推出TTS领域的新王者，又快又准又自然，零样本语音克隆新高度
22	【AI大模型前沿】MiniMind-V：低成本打造超小多模态视觉语言模型（仅需1.3元人民币和1小时）
23	【AI大模型前沿】MoCha：端到端对话角色视频生成模型、电影级对话角色合成黑科技、重新定义动画创作
24	【AI大模型前沿】HuatuoGPT-o1-7B：中英文双语医学推理，打破语言障碍的AI大模型
25	【AI大模型前沿】MedReason：大规模医学推理数据集、借用知识图谱将大模型打造成“医术”专家
26	【AI大模型前沿】SkyReels-V2：昆仑万维开源的无限时长电影生成模型，开启视频生成新纪元
27	【AI大模型前沿】Dia：Nari Labs开源16亿参数TTS模型，只需文本输入，生成媲美真人对话的语音
28	【AI大模型前沿】阿里巴巴开源LHM：单图生成可动画3D人体模型，开启3D建模新纪元
29	【AI大模型前沿】TinyLLaVA-Video-R1：北航开源视频推理模型、小尺寸大智慧、参数少一半，性能翻一番
30	【AI大模型前沿】TTRL：测试时强化学习，开启无标签数据推理新篇章
31	【AI大模型前沿】Aero-1-Audio：Qwen2.5架构加持，轻量级音频模型天花板、吊打Whisper
32	【AI大模型前沿】DianJin-R1：阿里云通义点金联合苏大推出的金融推理增强大模型
33	【AI大模型前沿】VITA-Audio：腾讯开源的高效语音交互多模态大语言模型
34	【AI大模型前沿】Multiverse：全球首个AI多人游戏世界模型，低成本高效率新突破
35	【AI大模型前沿】Seed1.5-VL：多模态理解的效率革新者，以小博大，性能惊艳
36	【AI大模型前沿】ViLAMP：蚂蚁集团和人民大学联手打造的长视频理解利器，单卡处理3小时视频
37	【AI大模型前沿】Muyan-TTS：开源零样本语音合成模型、0.33秒极速生成播客级语音、小白也能玩转AI配音
38	【AI大模型前沿】Dolphin：字节跳动开源文档解析大模型，轻量级、高效、多格式，开启文档处理新时代
39	【AI大模型前沿】ChatTS：字节跳动联合清华大学开源、多模态时序大模型助力时序数据对话与推理
40	【AI大模型前沿】Index-AniSora：B站开源的动漫视频生成模型，助力高效创作
41	【AI大模型前沿】RelightVid：上海 AI Lab联合复旦等高校推出的视频重照明模型
42	【AI大模型前沿】BAGEL：字节跳动开源、多模态大模型的创新突破与实践指南
43	【AI大模型前沿】Matrix-Game：昆仑万维开源大模型，一键生成你的专属虚拟世界
44	【AI大模型前沿】Pixel Reasoner：滑铁卢联合港科大等高校推出的视觉语言模型，助力视觉推理新突破
45	【AI大模型前沿】CoGenAV：多模态语音表征新范式、通义联合深技大打造、噪声环境WER降低70%+
46	【AI大模型前沿】Ming-Lite-Omni：蚂蚁集团开源的统一多模态大模型的创新实践
47	【AI大模型前沿】DeepEyes：小红书与西安交大联合打造的多模态深度思考模型
48	【AI大模型前沿】OmniAudio：阿里通义实验室的空间音频生成模型，开启沉浸式体验新时代
49	【AI大模型前沿】MiniCPM 4.0：面壁智能开源的极致高效端侧大模型（小版本、低消耗、220倍极致提速）
50	【AI大模型前沿】SmolVLA：Hugging Face开源的轻量级视觉-语言-行动机器人模型
51	【AI大模型前沿】Time-R1：伊利诺伊大学香槟分校开源的时间推理语言模型、实现过去→未来全链路推演
52	【AI大模型前沿】MonkeyOCR：基于结构-识别-关系三元组范式的文档解析模型
53	【AI大模型前沿】GLM-4.5：智谱打造的开源SOTA模型，推理、代码与智能体能力融合先锋
54	【AI大模型前沿】百度飞桨PaddleOCR 3.0开源发布，支持多语言、手写体识别，赋能智能文档处理
55	【AI大模型前沿】Stream-Omni：多模态交互的“黄金三角”——视觉、语音、文本的完美融合
56	【AI大模型前沿】Vui：Fluxions-AI开源的轻量级语音对话模型，开启自然语音交互新时代
57	【AI大模型前沿】腾讯AI Lab开源的SongGeneration：音乐生成大模型的技术探索与实践
58	【AI大模型前沿】Osmosis-Structure-0.6B：小型语言模型在结构化信息提取中的突破
59	【AI大模型前沿】Kwai Keye-VL：颠覆认知！国产多模态大模型突然发布，视频理解能力堪比人类
60	【AI大模型前沿】Nanonets-OCR-s：从学术论文到法律合同，智能识别公式、签名、表格与图像
61	【AI大模型前沿】OmniAvatar：浙大联合阿里打造的音频驱动全身视频生成模型
62	【AI大模型前沿】DAMO GRAPE：阿里达摩院与浙江肿瘤医院联合打造的早期胃癌识别AI模型
63	【AI大模型前沿】阿里开源Lingshu：一个模型搞定12种医学影像诊断
64	【AI大模型前沿】原石科技MetaStone-S1：突破性反思型生成式大模型的技术解析与实践指南
65	【AI大模型前沿】清华实验室开源MOSS-TTSD：口语对话语音生成的突破
66	【AI大模型前沿】昆仑万维开源Skywork-R1V3：38B多模态推理模型，高考数学142分刷新开源SOTA

系列篇章💥
前言
一、项目概述
二、技术原理
- （一）、整体训练框架
- （二）、GRPO强化学习算法
- （三）、跨模态连接器微调
- （四）、数据蒸馏与冷启动
三、主要功能
- （一）、跨模态推理
- （二）、多学科泛化
- （三）、教育级链式思维展示
- （四）、工具调用与插件扩展
四、应用场景
- （一）、教育领域
- （二）、医疗领域
- （三）、科研领域
- （四）、艺术与创意
五、性能表现
- （一）、公开基准
- （二）、中国高考实测
- （三）、消融实验
六、快速使用
- （一）、环境准备
- （二）、模型下载
- （三）、推理示例
- （四）、vLLM高并发部署
- （五）常见报错与解决
七、结语
项目地址

前言

2025年7月9日，昆仑万维旗下Skywork AI团队宣布开源Skywork-R1V3-38B，以高考数学142分、MMMU 76分的成绩，首次让开源多模态模型逼近人类初级专家水平。本文将深度解析其技术原理、功能边界与落地实践，帮助开发者与教育、医疗、科研等行业伙伴快速上手。

一、项目概述

Skywork-R1V3是昆仑万维Skywork AI基于InternVL3-38B打造的开源多模态推理大模型，通过强化学习后训练，仅用2.5万条小数据即在数学、物理、医学影像等跨学科任务上超越同规模闭源模型，成为当前开源社区视觉-语言推理的新标杆。

二、技术原理

（一）、整体训练框架

1、两阶段策略：先进行冷启动监督微调（SFT）建立推理格式，再用GRPO强化学习激发跨模态推理潜能。
2、小数据高效训练：1.2万条SFT + 1.3万条RL样本，参数量38B，单卡A100 80G即可推理。

（二）、GRPO强化学习算法

1、Group Relative Policy Optimization：以组为单位估计相对优势，减少方差、加速收敛。
2、关键熵驱动机制：实时监测生成链式思维（CoT）关键步骤的熵值，过滤低熵“死记硬背”模型，确保推理多样性。

（三）、跨模态连接器微调

1、冻结大语言模型权重，仅训练视觉-文本连接器，减少灾难性遗忘。
2、引入领域平衡因子，缓解数学领域数据过拟合，提升历史、艺术等泛化性能。

（四）、数据蒸馏与冷启动

1、利用上一代R1V2的推理结果蒸馏出高质量CoT样本，降低标注成本60%。
2、冷启动阶段加入“错误纠正”样本，教会模型识别并修正自身逻辑漏洞，提升鲁棒性。

三、主要功能

（一）、跨模态推理

1、图像+文本联合解析：可读取物理受力图、化学结构式、心电图，并给出逐步求解过程。
2、多图融合：支持一次性输入多张图像进行关联推理，例如对比实验前后显微照片差异。

（二）、多学科泛化

1、数理逻辑：涵盖初高中竞赛到大学高数、线代、概率论。
2、人文社科：历史地图变迁、地理信息可视化、艺术作品风格分析。

（三）、教育级链式思维展示

1、可输出LaTeX格式的数学推导，方便教师直接嵌入课件。
2、支持中文、英文双语逐步解释，适配不同教学场景。

（四）、工具调用与插件扩展

1、开放Function Call接口，可调用Wolfram Alpha、Python解释器进行符号计算。
2、支持LangChain、LlamaIndex集成，快速构建RAG知识库问答。

四、应用场景

（一）、教育领域

1、个性化AI家教：学生上传手写题目照片，模型即时给出分步解析与错因分析。
2、智能阅卷：自动批改数学、物理大题，输出评分细则，教师复核效率提升3倍。

（二）、医疗领域

1、多模态诊断助手：结合CT/MRI影像与电子病历，输出疑似疾病列表及循证依据。
2、医学教育：住院医师上传病例，模型生成鉴别诊断思路，用于教学查房。

（三）、科研领域

1、实验数据洞察：读取论文图表与正文，提取关键结论并推荐下一步实验设计。
2、跨学科知识发现：输入地质图与气象数据，推理古气候演变模型。

（四）、艺术与创意

1、风格迁移分析：解析梵高、莫奈画作笔触，为新作品提供风格建议。
2、广告与营销：根据商品图与评论文本，生成多模态广告脚本。

五、性能表现

（一）、公开基准

1、MMMU（多学科多模态理解）：76.0，领先第二名开源模型4.2分。
2、MathVista：68.7，超过GPT-4V 3.1分。
3、OlympiadBench：62.3，刷新开源纪录。

（二）、中国高考实测

1、2024年全国甲卷理科数学：142/150，错误集中在立体几何复杂作图题。
2、英语阅读理解：客观题满分，主观题得分率85%，语言模型部分仍有提升空间。

（三）、消融实验

1、移除关键熵机制后MMMU下降至71.4，证明多样性筛选有效。
2、仅用数学数据训练时，历史题得分降至39，显示连接器微调对泛化至关重要。

六、快速使用

（一）、环境准备

1、硬件：推荐单卡A100 80G或双卡RTX 4090 24G×2。
2、软件：

conda create -n r1v python=3.10 -y
conda activate r1v
git clone https://github.com/SkyworkAI/Skywork-R1V.git
cd Skywork-R1V/inference
pip install -r requirements.txt

（二）、模型下载

1、HuggingFace CLI登录

huggingface-cli login

2、拉取权重

huggingface-cli download Skywork/Skywork-R1V3-38B --local-dir ./Skywork-R1V3-38B

（三）、推理示例

1、命令行快速测试

python inference_with_transformers.py 
  --model_path ./Skywork-R1V3-38B 
  --image_paths ./examples/math.png 
  --question "请详细解析这道几何题的证明过程，并用LaTeX输出。"

2、返回结果示例

{
  "answer": "\textbf{步骤1：}\quad 连接AC，利用勾股定理得AC=5...",
  "chain_of_thought": "观察到图形中存在直角三角形，可优先应用勾股定理..."
}

（四）、vLLM高并发部署

1、安装vLLM

pip install vllm

2、启动服务

from vllm import LLM, SamplingParams
llm = LLM(model="./Skywork-R1V3-38B", tensor_parallel_size=2)
out = llm.generate(["<img>data:image/jpeg;base64,...</img> 求解"], sampling_params=SamplingParams(max_tokens=2048))
print(out[0].outputs[0].text)

（五）常见报错与解决

1、显存不足：启用AWQ量化版Skywork-R1V3-38B-AWQ，显存降至30 GB。
2、中文乱码：升级transformers>=4.42.0，确保tokenizer配置文件完整。

七、结语

Skywork-R1V3用极致的小数据训练策略和强化学习后训练，为开源社区带来了媲美闭源旗舰的多模态推理能力。随着Function Call与插件生态的完善，它将成为教育、医疗、科研等行业落地的首选基座模型。欢迎访问下方项目地址，一起探索跨模态智能的无限可能。

项目地址

GitHub：https://github.com/SkyworkAI/Skywork-R1V
HuggingFace：https://huggingface.co/Skywork/Skywork-R1V3-38B
技术论文：https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V3.pdf

🎯🔖更多专栏系列文章：AI大模型提示工程完全指南、AI大模型探索之路（零基础入门）、AI大模型预训练微调进阶、AI大模型开源精选实践、AI大模型RAG应用探索实践🔥🔥🔥 其他专栏可以查看博客主页📑

😎 作者介绍：资深程序老猿，从业10年+、互联网系统架构师，目前专注于AIGC的探索（CSDN博客之星|AIGC领域优质创作者）
📖专属社群：欢迎关注【小兵的AI视界】公众号或扫描下方👇二维码，回复‘入群’ 即刻上车，获取邀请链接。
💘领取三大专属福利：1️⃣免费赠送AI+编程📚500本，2️⃣AI技术教程副业资料1套，3️⃣DeepSeek资料教程1套🔥（限前500人）
如果文章内容对您有所触动，别忘了点赞、⭐关注，收藏！加入我们，一起携手同行AI的探索之旅，开启智能时代的大门！

AI # Langchain

文章版权归作者所有，未经允许请勿转载。

【AI大模型前沿】昆仑万维开源Skywork-R1V3：38B多模态推理模型，高考数学142分刷新开源SOTA

系列篇章💥

目录

前言

一、项目概述

二、技术原理

（一）、整体训练框架

（二）、GRPO强化学习算法

（三）、跨模态连接器微调

（四）、数据蒸馏与冷启动

三、主要功能

（一）、跨模态推理

（二）、多学科泛化

（三）、教育级链式思维展示

（四）、工具调用与插件扩展

四、应用场景

（一）、教育领域

（二）、医疗领域

（三）、科研领域

（四）、艺术与创意

五、性能表现

（一）、公开基准

（二）、中国高考实测

（三）、消融实验

六、快速使用

（一）、环境准备

（二）、模型下载

（三）、推理示例

（四）、vLLM高并发部署

（五）常见报错与解决

七、结语

项目地址

2025，在AI星河中遨游，于CSDN星畔留痕

零基础学AI大模型之LLM存储优化：大量QA与长对话问题实战

相关文章

脉脉独家【AI创作者xAMA】| 多维价值与深远影响

【AI智能体】AI自动化流程编排平台N8N核心组件使用详解

不懂这些别谈 AI！2025 百大热词趣味解析，科技人都在转的干货【一句话精简版】

AI资源白嫖——Trae国际版一周年福利，免费用一个月600次快速请求

【AI大模型前沿】昆仑万维开源Skywork-R1V3：38B多模态推理模型，高考数学142分刷新开源SOTA

系列篇章💥

目录

前言

一、项目概述

二、技术原理

（一）、整体训练框架

（二）、GRPO强化学习算法

（三）、跨模态连接器微调

（四）、数据蒸馏与冷启动

三、主要功能

（一）、跨模态推理

（二）、多学科泛化

（三）、教育级链式思维展示

（四）、工具调用与插件扩展

四、应用场景

（一）、教育领域

（二）、医疗领域

（三）、科研领域

（四）、艺术与创意

五、性能表现

（一）、公开基准

（二）、中国高考实测

（三）、消融实验

六、快速使用

（一）、环境准备

（二）、模型下载

（三）、推理示例

（四）、vLLM高并发部署

（五）常见报错与解决

七、结语

项目地址

2025，在AI星河中遨游，于CSDN星畔留痕

零基础学AI大模型之LLM存储优化：大量QA与长对话问题实战

相关文章

脉脉独家【AI创作者xAMA】| 多维价值与深远影响

【AI智能体】AI自动化流程编排平台N8N核心组件使用详解

不懂这些别谈 AI！2025 百大热词趣味解析，科技人都在转的干货【一句话精简版】

AI资源白嫖——Trae国际版一周年福利，免费用一个月600次快速请求

标签云