欧洲最大的开源项目:Sber发布了一系列先进的俄罗斯神经网络模型
2025-11-23 17:42 Sber

欧洲最大的开源项目:Sber发布了一系列先进的俄罗斯神经网络模型。此外,Kandinsky 5.0新系列中的所有图像和视频生成模型——Video Pro, Video Lite和Image Lite均已可用。这些先进的神经网络本地支持俄语提示,了解俄罗斯文化,并能够在图像和视频上书写西里尔文字。同时,还发布了用于视觉数据压缩的K-VAE 1.0模型,该模型是世界上同类开源模型中的最佳,且对于训练视觉内容生成模型至关重要。所有这些模型的代码和权重现已通过MIT许可证向所有用户开放,包括商业用途。

Sber开放了GigaChat系列中两款新的旗舰MoE模型——Ultra-Preview和Lightning的权重,这些模型从零开始专为俄语任务打造,同时还推出了新一代开放式GigaAM-v3模型,用于带标点符号和规范化的语音识别。

Sber高级副总裁、技术发展部门负责人安德烈·贝列夫采夫(Andrey Belevtsev)表示:

打造真正的世界级人工智能需要两样东西:巨大的资源,更重要的是世界顶级的研发团队。Sber拥有这两者。但我们的基本立场是不建设“封闭”的技术。我们的战略是成为全国开放的基础。因此我们开放了模型权重。这是关键点。当我们开放模型时,俄罗斯任何公司,从银行到初创企业,都可以在其封闭环境中安装模型,并在不向任何人泄露敏感数据的情况下进行微调。这就是真正的技术主权,AI属于整个国家,并成为业务转型和经济增长的基础。我还想指出,Ultra模型很快也会面向企业客户发布,优化拥有成本适合在公司内部部署。

GigaChat UltraGigaChat Lightning

GigaChat系列迎来新成员:GigaChat Ultra Preview和GigaChat Lightning。GigaChat Ultra Preview是GigaChat系列中最强大、最大的模型。这是俄罗斯首个如此规模的模型,虽然仍在训练过程中,但在当前阶段,它已经在俄语质量指标(MERA基准测试领先)上超过了DeepSeek V3.1和之前的旗舰模型GigaChat Max 2。Ultra-Preview采用开放许可,将允许在本地环境中微调,比如在对隐私、信息安全与质量要求严格的封闭企业环境中。尽管模型很大,但速度足够快,比GigaChat 2 MAX更快。相反,GigaChat Lightning是系列中最紧凑、最快的MoE模型,优化为可在笔记本本地运行,支持快速产品迭代。其质量与全球开源领域领导者竞争,在俄语任务上超过Qwen3-4B,在对话、文档分析及业务应用中表现不俗。和Ultra一样,不仅公开模型权重,还公开了加速推理技术:Lightning在同类中速度领先,接近Qwen3-1.7B速度,体积却大6倍。两者均有效整合了第三方工具系统,尤其是代码与记忆功能。代码工具可执行、分析和可视化程序,实时运行代码片段,绘制图表,计算及验证假设。记忆系统个性化交流,保存目标、偏好和对话历史,实时调整建议,过时或敏感信息会被清除,用户也可手动调整模型记忆。

GigaAM-3

GigaAM-v3是包含5款俄语自动语音识别(ASR)模型的开放套件,面向工业与商业应用。该套件支持语音助手、呼叫中心、电话分析、语音消息聚合及多模态代理。新版声学模型预训练规模从5万小时扩增到70万小时,加入了呼叫中心、音乐检索、带特征口音和自然讲话等新领域,显著提升了这些场景的识别质量。基于独特的基础模型GigaAM-v3,可以开发各类语音技术;Sber已用于语音识别、语音合成,并支持GigaChat处理视频和音频。

Kandinsky 5.0

Kandinsky 5.0系列包含Image Lite模型,支持文本生成图像及编辑,及两款视频生成模型:快速的Video Lite和强大的Video Pro,均能根据文本描述生成视频并“活化”图像。通用模型Image Lite支持高清视频分辨率,熟悉俄罗斯文化代码,能本地理解俄语和英语指令,能生成拉丁字母和西里尔字母的文字。Video Pro能生成10秒24fps高清短视频,是目前最优开源模型,超过Wan 2.2 A14B,视觉质量达到全球顶级专有模型Veo 3的水平。为降低集成门槛,Video Lite优化支持12GB以上家用显卡。训练使用近10亿图像及3亿视频,为本土文化适配额外使用了逾百万媒体素材。大规模数据训练采用多项前沿方法,有专门团队挑选高质量数据,保证作品构图、风格及视觉质量。Kandinsky模型打造了从个人创作服务到专业产业工具的广泛产品线。基于开放模型,开发者和公司可打造便于用户生成个性化视频祝贺、照片“活化”及原创视觉故事的解决方案。对导演、设计师、市场营销及动画师等专业人士,Kandinsky 5.0产品是强劲的商业宣传材料及视觉内容制作工具,推动俄罗斯生成技术开放生态发展。

K-VAE 1.0

生成模型如Kandinsky 5.0在“人眼不可见”的隐空间合成媒体内容,提升训练效率、加速计算、降低内存需求。Sber发布了自主研发的K-VAE 1.0自编码器,分别用于2D图像和3D视频,支持媒体内容与隐空间相互转换。K-VAE 1.0是同类开源模型中的世界领先产品,其开放使用将助力生成型人工智能技术实现新飞跃。