面壁智能发布基于稀疏-线性混合架构SALA训练9B模型
2月12日,面壁智能正式发布稀疏-线性注意力混合架构SALA,以及基于该架构的文本模型MiniCPM-SALA,模型仅有9B参数。
[本文为作者独立观点,不代表i黑马立场。如需转载请联系微信公众号(ID:iheima)授权,未经授权,转载必究。]
2月12日,面壁智能正式发布稀疏-线性注意力混合架构SALA,以及基于该架构的文本模型MiniCPM-SALA,模型仅有9B参数。