导读 岩山科技旗下的创企岩芯数智,于1月24日推出国内第1个非Attention大模型,该大模型的名称是Yan,在整个行业内也是非常少有的非Transformer
岩山科技旗下的创企岩芯数智,于1月24日推出国内第1个非Attention大模型,该大模型的名称是Yan,在整个行业内也是非常少有的非Transformer架构大模型。
岩芯数智的CEO刘凡平对这款新的大模型进行了介绍,表示Yan属于通用的语言大模型,与同等参数Transformer相比,拥有7倍的训练效率,记忆能力达到三倍,推理吞吐能够达到5倍。同时还可以进行CPU无损运行,对于私有化应用100%支持,可以进行低幻觉的表达。
Yan到目前为止,还没有确定真正的与谁进行对标,大家当前所看到的一些与Transformer进行对比的数据,实际上是与Llama2的数据所进行的对比,空中能够看到一些在性能方面的差异。该团队所对标的实际上是底层技术架构,并不是与某一个产品进行对标。
Yan在推理效率、幻觉表现、记忆能力以及训练效率方面的优势都比较强,包括在CPU上运行也有比较强的优势。其劣势很可能是在上百k超长文本上会存在着语义的缺陷。