2024 年 11 月 06 日,腾讯混元两大核心模型在 Gitee 正式开源,这一重大举措在国内引发了广泛关注。此次开源的两款模型分别是混合专家(MoE)模型 Hunyuan-Large(Hunyuan-MoE-A52B)及 3D 生成模型 Hunyuan3D-1.0。
一、Hunyuan-Large 模型
Hunyuan-Large 模型拥有 3890 亿总参数和 520 亿激活参数,上下文长度达 256k,是当前业界参数规模最大、效果最好的 Transformer 架构的开源 MoE 模型。它在多轮对话、高质量文本生成、数学逻辑、代码创作等多个场景中表现优异。
MoE 模型是一种通过多个专家网络来协同处理不同任务的深度学习模型结构。在 Hunyuan-Large 的模型结构和训练策略方面,探索了 MoE ScalingLaw,进行了 MoE 共享专家路由、回收路由等策略创新,并引入专家特化的学习率适配训练策略,有效提升不同专家利用率和稳定性。
此外,该模型采用了 Grouped-Query Attention(GQA)和 Cross-Layer Attention (CLA)两种策略,对 KV Cache 进行了压缩,大幅提升推理性能。在与业界开源的 DeepSeek-V2、Llama3.1-70B、Llama3.1-405B 以及 Mixtral-8x22B 的对比中,Hunyuan-Large 在 CMMLU、MMLU、CEval 等多学科综合评测集、中英文 NLP 任务、代码和数学等九大维度处于行业领先水平。
二、Hunyuan3D-1.0 模型
为解决现有的 3D 生成模型在生成速度和泛化能力上的不足,腾讯混元开源的 Hunyuan3D-1.0 是业界首个同时支持文字、图像生成 3D 的开源大模型。它可以帮助 3D 创作者和艺术家自动化生产 3D 资产。
首批开源模型包含轻量版和标准版,轻量版仅需 10 秒即可生成高质量 3D 资产,目前已在 Gitee 正式上线,包含模型权重、推理代码、模型算法等完整模型,可供开发者、研究者等各类用户免费使用。
在生成过程中,Hunyuan3D-1.0 采用了多视角扩散模型和前馈重建模型两个阶段。轻量版模型能够在大约 4 秒内高效生成多视角图像,然后在大约 3 秒内快速而准确地重建 3D 资产。
在实际场景的应用中,腾讯地图已经基于腾讯混元 3D 大模型,发布了自定义 3D 导航车标功能,相比传统的 3D 车标重建方案,速度提升了 91%。腾讯元宝 APP 也上线了「3D 角色梦工厂」玩法,支持个性化的 UGC 3D 人物生成。
未来,腾讯混元将继续和 Gitee 共同带来更多模态、更多尺寸的开源模型,促进大模型技术进步和行业生态繁荣。