导语:10年100倍晋升,加快计较要接棒摩尔定律? “天空为何是蓝的?萤火虫为何可以发光?为何双眼老是一路动弹?”面临小伴侣的十万个为何,怙恃、教员总会借助贮备的常识,或者者查阅册本解答疑难。 但跟着内容的发作性增加,想要获得一个问题精准的谜底难度愈来愈年夜。 早年利用网上购物平台的用户,需要一步步按照商品的分类搜刮,才能于海量的商品中找到合适本身的商品。 2022年的双十一,平凡的消费者不仅可以轻轻松松就筛选出本身想要的商品,还有会收到很是切合本身爱好的商品、直播的保举。 这暗地里隐蔽了保举体系的变迁,于小伴侣问怙恃问题的场景里,怙恃实在就充任的是小伴侣的保举体系,但平凡人的常识贮备究竟有限。互联网时代,有了搜刮引擎,但还有不充足。 再厥后,AI技能的鼓起,帮忙了保举体系年夜步进步,不管是购物平台的商品保举,直播平台的主播保举,还有是视频平台的视频内容保举,愈来愈多的人最先感叹,AI更懂本身。 AI保举体系,也默默成了互联网公司营业中主要的构成部门。数据显示,于一些全世界年夜型于线网站上,纵然保举内容的相干性仅提高 1%,其销量也会增长数十亿,AI保举体系无疑是藏于浩繁互联网运用暗地里的高价值体系。 不外,高价值的AI保举体系今朝还有有被少数公司承担患上起,怎样才能实现AI保举体系的普和?咱们又适合才能拥有完善的AI保举体系呢? 保举体系暗地里的算力演进 保举体系其实不新鲜,互联网公司们为了可以或许晋升事迹及客户满足度,十多年前就最先了保举体系的研究与运用,早年间他们采用传统的要领,好比协同过滤等,CPU也足以满意那时保举体系的需求。 但跟着保举体系运用需乞降算法的演进,体系愈来愈繁杂,需要越发强盛的底层算力作为支撑,保举体系的开发者发明一个问题,通讯节点间的机能碰到了瓶颈。也就是说,于办事器到达必然的范围以后,继承增长办事器的数目已经经很难晋升保举体系的效果。 这就促使保举体系的鞭策者们寻觅更强盛且更适合的算力支撑。固然,这个历程中还有有一个主要的鞭策力——AI。于保举体系中引入AI以后,可以或许增长保举体系的效果,但与此同时也让保举体系变患上愈来愈繁杂。 一个典型的保举体系,包罗了召回、过滤等历程,AI的引入,需要利用愈来愈多的数据举行练习,以到达预期的效果。 “保举体系中引入深度进修以后,各人还有是会习气性先用CPU,但厥后发明于深度进修的算法里多加几层神经收集可能就算不动了。”NVIDIA亚太区开发与技能部总司理李曦鹏于2022云栖年夜会时期对于雷峰网说,“GPU此时有较着的上风,GPU的算力远高在CPU,同时GPU的带宽比CPU高很是多,咱们的Hopper架构GPU的带宽已经经到达3TB / s。” 但要加快保举体系,不止是从CPU迁徙到GPU这么简朴。 GPU怎样加快AI保举体系? 保举体系中AI的引入,让保举体系变患上越发繁杂的同时,对于算力的需求也出现出指数级的上升。 于保举体系中,有年夜量的嵌入表(Embedding),包罗各类保举体系所需的特性,好比性别、春秋等等,嵌入表被用在将输入数据中的离散特性映照到向量,以便下流的神经收集举行处置惩罚,巨细可以到达TB级。嵌入表凡是是内存带宽及容量密集型,对于在计较的需求不年夜,需要很年夜的内容容量及带宽举行快速读取,这对于在CPU而言是一个较着的挑战。 此时,采用GPU有两个显著的上风,李曦鹏说:“一个是GPU的内存带宽远高在平凡办事器,另外一个是迁徙以后将本来节点上的通讯从本来CPU及GPU的PCIe通讯,酿成了GPU及GPU之间的NVLink通讯,速率晋升几倍。” 接下来,就需要用AI模子举行计较,此时多是计较密集也多是内存带宽密集。更贫苦的是,因为模子愈来愈年夜,凌驾了GPU板载的存储容量,没措施存储完备的模子,需要把它分块,嵌入表就需要做模子并行,而DNN部门需要数据并行。于这个历程中,从模子并行到数据并行,需要做很是大都据互换,成为了年夜量计较节点间密集的通讯。 “保举体系需要的不单单是GPU,而是加快计较。”李曦鹏指出,“加快计较不是一个简朴的芯片或者者硬件,而是一个包罗硬件、软件以和上层运用的一整套解决方案。” 好比英伟达为保举体系推出的NVIDIA Merlin。于预处置惩罚方面,NVIDIA Merlin NVTabular可以实现加快。 针对于嵌入表,Merlin Distributed-Embeddings可以利便TensorFlow 2 用户用短短几行代码轻松完成年夜范围的保举模子练习。而且,NVIDIA Merlin Distributed-Embeddings 的机能体现也十分凸起,DGX-A100上的Merlin Distributed-Embeddings 方案比仅利用 CPU 的解决方案实现了惊人的683倍加快。 NVIDIA Merlin还有有HugeCTR的开源框架,方针是优化 NVIDIA GPU 上的年夜范围保举。 也就是说,NVIDIA Merlin是一个针对于保举体系,类似在一个端到真个解决方案。 即便云云,保举体系的普和依旧面对着巨年夜的挑战。 普和保举体系的两年夜挑战 保举体系作为高价值的AI体系,普和面对的两年夜挑战就是差异化以和高门坎。 “咱们充实理解,因为营业的差别在保举体系有很年夜的差异,咱们会只管即便把NVIDIA Merlin的功效举行模块化,客户可以按照需求选择差别的模块,利用的模块越多,效果也会更好。”李曦鹏说,“咱们经由过程Merlin的模块化解决问题的同时,也经由过程及像阿里云如许的云计较办事商互助鞭策保举体系的普和。” 差别的保举体系利用的算法其实不不异,虽然如今AI年夜模子的运用愈来愈广泛,而且年夜模子于美国人工智能学术界将其称为基础模子(Foundation Model),但这其实不象征着所有保举体系都需要利用年夜模子。 李曦鹏的不雅点是,年夜模子提供一个更年夜的测验考试空间,其表征能力也更强,以是主流公司的模子愈来愈年夜,但主流公司也会有一些小的营业,也许也会有一些小的模子。如今主流的公司已经颠末渡到了GPU方案,比力重点的营业是全GPU的解决方案。以是,于算法上,即便主流公司也有阶梯。 “进步前辈模子对于在中小企业来讲收益可能没那末年夜,由于他们的营业体量没那末年夜,而经由过程云计较的方式,以和GPU的解决方案,可以帮他们降低门坎及成本。”李曦鹏进一步暗示。 差异化需求以外,保举体系普和的另外一年夜挑战就是高门坎。 “互联网巨头有成百上千人的团队于做保举体系,中小企业很难投入这么多。但经由过程咱们及阿里云如许有能力的云办事提供商互助,给中小公司开放一些更高级的API,有一些预界说的模子可以或许实现不错的保举体系,投入一两个数据科学家,这将有益在保举体系的普和。”李曦鹏说。 保举体系的普和,将可以或许代表加快计较巨年夜的想象空间。 10年100倍,加快计较价值千亿的巨年夜空间 已往几十年间,患上益在摩尔定律,算力于连续增加。但如今摩尔定律已经经放缓,从最初每一年1.5倍机能的晋升,降落到如今每一年1.1-1.2倍的晋升。摩尔定律带来的算力晋升已经经难以满意包括保举体系于内运用对于算力指数级的机能增加需求。 “接下来的十年,所有的计较使命都将被加快。咱们已经经加快了世界上5%的计较使命——价值百亿$。加快计较会降低计较使命的成本,提高能源使用率,给工业界带来更多的能力做更多的工作。”英伟达CEO黄仁勋于本年十月时暗示。 仅看保举体系,Mordor Intelligence 发布的数据指出,保举体系总体市场将从2020 年仅为 21.2 亿美元晋升至2026年的 151.3 亿美元。加快计较显然具备数千亿的市场空间,但要加快云云之年夜的市场,需要机能的连续晋升。 加快计较的方针是连结每一年1.6-1.7倍的机能增加,5年可以实现10倍的机能晋升,10年就能够实现100倍的晋升,这与摩尔定律10年可以实现的4倍机能晋升形成为了显著的差异。 前面已经经提到,加快计较不止是从硬件的层面实现机能的晋升,越发夸大从硬件到软件再到运用的加快,实现机能的奔腾。 现实上,加快计较的价值已经经于AI运用中表现出来,之前练习一个AI模子,周期以周来计较,调解模子练习至少又患上等一周,而此刻,即便模子愈来愈年夜,练习一个模子的时间也只需要几分钟了。 “几年前难以练习的年夜模子,早已经成了已往式。更多更年夜范围的事情负载等着去加快。”李曦鹏对于在加快计较可以或许实现方针也十分有决定信念。雷峰网(公家号:雷峰网) 雷峰网原创文章,未经授权禁止转载。详情见转载须知。





