导读 硬科技:一窥NVIDIA「真正人工智慧」Volta的执行单元细节 毕竟是享有IEEE这响亮品牌「加持」的研讨会,加上坐在台下

硬科技:一窥NVIDIA「真正人工智慧」Volta的执行单元细节

毕竟是享有IEEE这响亮品牌「加持」的研讨会,加上坐在台下的听众多半又不是呆头呆脑的「诸多媒体先进」,诸多在HotChips趁机宣扬国威并现场隔空较劲的晶片厂商,多半都会讲些和技术行销简报「很不一样」的深度内容。

volta架构(volta架构解码)volta架构(volta架构解码)


NVIDIA这次公布了「人工智慧最佳化」GPU微架构Volta(GV100)的执行单元细节,颇有看头,平日很难得看到绘图晶片厂商愿意打开「黑盒子」给大家品头论足,尤其是扮演着GPU关键灵魂,也就是NVIDIA从Fermi一路改名SMSMXSMM再改回SM的「多执行绪SIMD(或SIMT)处理器」,过去大家都在乱猜一通,现在总算有机会一窥其庐山真面目。

「分而治之」的NVIDIA产品发展策略

如果今天要笔者马上评论「为何NVIDIA可以在高阶绘图市场压倒AMD」,唯一可勉强挤出的大概也只有一句话:NVIDIA集中足够的资源,采取分散风险的多样化产品研发计画,而不像同时经营CPUGPU两条战线、蜡烛两头烧的AMD,被迫鸡蛋都放在同一个篮子内。

在2013年的NVIDIA时程表,原本Maxwell要直接演进到Volta。

但2014年,在Volta前就多出一个Pascal了。

所以2016年「泛用」的Pascal,2017年「专用」的Volta,打破了NVIDIA两年推出一个崭新微架构的节奏,搞不好NVIDIA以后的「钟摆」就以一年为期,也说不定。

以事后诸葛的角度回顾NVIDIA「小步快跑」的决定,一点都不让人感到意外,因为Volta的确是NVIDIA史上第一个真正针对人工智慧量身订做、兼顾「学习/训练」与「推论/预测」的微架构。

逐步深入、抽丝剥茧Volta微架构的SM细节

Volta的单一SM规划和「前前代」Maxwell雷同,切成四块「次核心(Sub-Core)」。其实图中少画了载入储存单元,但好像也无关紧要了。

四块次核心共用L1指令快取、L1资料快取(与材质和区域共享记忆体共用128kB容量,NVIDIA宣称这样比较有弹性)、与晶片共用的记忆体子系统(6MB第二阶快取和12GBHBM2主记忆体)。

每个次核心单一时脉执行一个由32执行绪组成的「Warp」,想的简单一点,一个Warp就代表画面上的一个小方格。

次核心内的执行单元就是重头戏了,Volta包含五种截然不同的独立运算功能,这让它能够在众多GPU中鹤立鸡群。

32位元浮点(FP32):16组,「CUDACore」的同义词,如执行16位元半精度,输出率将会倍增。特殊运算(MUFU):4组,特殊功能单元,负责平方根、倒数、sine和cosine等三角函数。64位元浮点(FP64):8组,高效能运算必备品,消费市场就 *** 或著根本看不到。整数运算(INT):16组,人工智慧一定用得到,看看Google第一代TPU就知道了。张量运算核心(TensorCore):2组,执行4x416位元浮点乘积和,适用于特征辨识的卷积运算(ConvolutionalNeuralNeork,CNN)。

值得注意的是,为了确保执行单元随时有指令可跑,次核心具备「L0」指令快取。

一颗GV100有640个TensorCore:每个次核心2个x4个次核心x80个SM=640个。

可理可证,GV100有5120个CUDAcore,Fermi完全体GF110的整整「十倍」,时间过得真快。

最后,也是最重要的,Volta可实现更精细的执行绪执行资源管理,每个Warp的32执行绪,都有其个别独立的程式计数器(ProgramCounter),更利于多工与虚拟化应用。

无所不备则无所不寡

Volta(GV100)这些补强,特别像独立的64位元浮点单元、独立的整数运算单元、与为了强化推论(Inference)而生的16位元浮点乘积和张量(Tensor)运算单元「TensorCore」,都是对一般游戏娱乐或高效能运算而言,敬谢不敏的化外之民,即使Pascal后期型号(GP102/GP104/GP106)也追加了对8位元短整数的支援性,但仍看不到Volta的车尾灯,而那时的AMD,大概只能仆在马路上,背后深深烙印着两条被NVIDIA活活辗过的轮胎痕。

同样的「分工」精神,也早已成为NVIDIA自「让GPU更接近泛用CPU」的Fermi微架构为起点,产品规划的重要特色:具备高效能64位元浮点运算的高阶应用,都会有专属的大型化晶粒,像GF100、GF110、GK110、GK210、GP100、GV100等(Maxwell世代没这样搞,算是特例),以免消费市场压根儿不需要的「外挂」,伤害产品竞争力,如不必要的多余制造成本与耗电量等。

很不幸的,就刚好就是AMD的弱点,想要单一设计面面俱到,下场就是两边都顾不到,Vega就是很好的血淋淋例证。疑?怎么又让笔者想起Fusion了?

inter大法好,老黄大法好,听说新出的Volta的架构可以使笔记本打到台式的性能。不知道是多少纳

你的信息太老了吧。

英伟达的这个volta架构已经不用了。

intel刚刚进入显卡领域没多长时间,无论架构还是设计与英伟达和amd的差距还是很大的。目前根本还算不上对手。

英伟达的确在架构上领先AMD,不过在专业卡领域,英伟达还是落后一些的。这个才是显卡的核心技术。

向一些英伟达在游戏领域推出的新驱动,必须与游戏和软件配合才行,而且目前只有部分游戏大厂在用。

目前这一代帕斯卡架构已经达到让笔记本显卡与台式机显卡平级了(约等于)

求历代英伟达显卡架构名称

NVIDIA显卡的核心微架构经历了特斯拉(Tesla)、费米(Fermi)、开普勒(Kepler)、麦克斯韦尔(Maxwell)、帕斯卡(Pascal)、图灵(Turing)。

CPU架构是CPU厂商给属于同一系列的CPU产品定的一个规范,主要目的是为了区分不同类型CPU的重要标示。目前市面上的CPU指令集分类主要分有两大阵营,一个是intel、AMD为首的复杂指令集CPU,另一个是以IBM、ARM为首的精简指令集CPU。

NVIDIA显卡架构详情如下:

扩展资料:

NVIDIA发展历程:

1993年—怀揣PC初衷,创办NVIDIA;1994年—首个战略合作伙伴关系达成;1995年—首款产品NV1问世;1996年—MicrosoftDirectX驱动程序首次推出;1997年—RIVA128上市,迅速成为爆款;1998年—与台积电签署合作协议;1999年—里程碑:NVIDIA发明了GPU,全球首款GPU诞生;

2000年—收购图形技术先驱3dfx;2001年—进入集成图形市场;2002年—被《财富》杂志评为美国成长最快的公司;2003年—收购MediaQ;2004年—SLI发布,大幅提升了单台PC的图形处理能力;2005年—为索尼游戏机开发处理器;2006年—革命性CUDA架构亮相;

2007年—被《福布斯》评选为年度最佳企业;2008年—Tegra移动处理器问世;2009年—首届GPU技术大会,推出Fermi架构;2010年—助力世界上最快的超级计算机;2011年—收购基带领先者ICERA;2012年—推出基于Kepler架构的GPU;2013年——推出Tegra4系列处理器;

2014年—发布TegraK1SHIELD平板电脑,安卓游戏大火;2015年—深耕深度学习;2016年—驱动AI革命;2017年—Volta架构问世,进一步推动现代AI;2018年—Turing架构问世,重新定义了计算机图形;2019年—AI算力将持续革新各行各业;

先是费米Femi,然后到开普勒Kepler,再是麦克斯韦Maxwell,然后便是现在的最新架构帕斯卡Pascal

NVIDIA全新Volta架构显卡大约什么时候出来

下半年,最快四五月份。

已经出了两款显卡了,titan v和tesla p100,前者大约4w以上,后者目前没有单卖的,服务器一组好像是40w,也可能我记错了,反正很贵,至于主流游戏显卡,往年什么时候出,今年就什么时候出

为什么我3080显卡玩吃鸡fps只有100帧左右?

看画面设置吧,桌面端的3080全非常低1080p的情况下吃鸡跑个400fps没啥问题,可能是开了垂直同步之类的,笔记本的话不开独显直连是这个帧数,但3080的游戏本基本都会有独显直连功能,如果是笔记本可以开启独显直连