星辉平台-星辉娱乐

2021-10-12 21:38:26 jinqian 0

星辉娱乐平台据他们介绍,这样的量级不仅让它成为全球规模最大,同时也是性能最强的NLP模型。

训练过程一共使用了4480块英伟达A100 GPU,最终使该模型在一系列自然语言任务中——包括文本预测、阅读理解、常识推理、自然语言推理、词义消歧——都获得了前所未有的准确率。


星辉娱乐三倍规模于GPT-3


此模型简称MT-NLG,是微软Turing NLG和英伟达Megatron-LM两者的“继任者”。

Turing NLG由微软于2020年2月推出,参数为170亿;Megatron-LM来自英伟达,2019年8月推出,参数83亿。

图片关键词

它俩在当时分别是第一、二大规模的Transfomer架构模型。

我们都知道大参数规模的语言模型效果会更好,但训练起来也很有挑战性,比如:


  • 即使是最大容量的GPU,也存不下如此规模的参数;

  • 如果不特别注意优化算法、软件和硬件堆栈,那么所需的大量计算操作可能会导致训练时间过长。


那这个参数已是GPT-3三倍的MT-NLG又是如何解决的呢?

答案就是汲取“两家”所长,融合英伟达最先进的GPU加速训练设备,以及微软最先进的分布式学习系统,来提高训练速度。


自助注册
平台登录
手机下载