智能时代的三要素:
数据、算法和算力
史爱武中华读书报2021-09-22
近几年经过艰苦训练,选手实现突破性进步,人工智能技术和应用飞速发展,在我们生活和工作中都得到大量的普及应用,归功于推动人工智能发展的三大要素:数据、算法和算力。这三个要素缺一不可,相互促进、相互支撑,是爱游戏体育智能技术创造价值和取得成功的必备条件。
数 据
在人类发明史上,很多发明都是从模仿动物开始的,比如,模仿鸟类来实现人类的飞行梦想。历史上记载有各种关于模仿鸟类飞行的故事,当然,结果是可想而知的,肯定都以失败告终。我们把使用这种方法论的人统称为“飞鸟派”。
从此,学术界开始意识到,让计算机获得智能的钥匙其实是大数据。
数据对于人工智能,就如食材对于美味菜肴,人工智能的智能都蕴含在大数据中。因为人工智能的根基是训练,就如同人类如果要获取一定的技能,必须经过不断地训练才能获得,而且有“熟能生巧、巧能生仙”之说。
人工智能也是如此。只有经过大量的训练,才能总结出规律,应用到新的样本上。如果现实中出现了训练集中从未有过的场景,人工智能则会基本处于瞎猜状态,正确率可想而知。对于人工智能而言,大量的数据太重要了,而且需要覆盖各种可能的场景,这样才能得到一个表现得更智能的模型。
当前的时代,无时无刻不在产生大数据。人手一部的手机、无处不在的摄像头和传感器等设备都在产生和积累着数据,这些数据形式多样化,大部分都是非结构化数据。
这些大数据需要进行大量的预处理过程(特征化、标量化、向量化),处理后的数据才能为人工智能算法所用。
算 法
幸运的是,科学家从婴儿身上得到了启发。没有人教过婴儿怎么“看”,都是孩子自己从真实世界自学的。如果把孩子的眼睛当作是一台生物照相机的话,那这台相机平均每200毫秒就拍一张照——这是眼球转动一次的平均时间。到孩子3岁的时候,这台生物相机已经拍摄过上亿张真实世界照片。
这给科学家很好的启发:能不能给计算机看非常非常多猫的图片,让计算机自己抽象出猫的特征,自己去理解什么是猫。
当前,机器学习算法是主流算法,是一类从数据分析中获得规律,并利用规律对未知数据进行预测的算法。机器学习算法主要分为传统的机器学习算法和神经网络算法,神经网络算法快速发展,其中最热门的分支当属深度学习,近年来深度学习的发展达到了高潮。
算法对于人工智能,就是厨师(烹饪的方法)与美味菜肴的关系。算法是实现人工智能的根本途径,是挖掘数据智能的有效方法。
算 力
算力也就是计算能力,算力对于人工智能,如同厨房的煤气/电力/柴火对于美味佳肴一样。有了大数据和算法之后,需要进行训练,不断地训练,算力为人工智能提供了基本的计算能力的支撑,本质是一种基础设施的支撑。
AI中有一个术语叫Epoch,一个Epoch就是所有训练样本在神经网络中都进行一次正向传播和一次反向传播,再通俗一点,一个Epoch就是将所有训练样本训练一次的过程。
只把训练集从头到尾训练一遍神经网络是学不好的,而是要将完整的数据集在同样的神经网络中传递多次,把训练集翻过来、调过去训练多少轮。就像和小孩讲一个道理,一遍肯定学不会,必须一遍一遍反复地教,一遍就会那就是神童了。
有了大数据和先进的算法,还得有处理大数据和执行先进算法的计算能力。每个智能系统背后都有一套强大的硬件或者软件计算系统。
超级计算机是一个国家科技发展水平和综合国力的反映。没有超级计算机,天气预报不可能预报15天,中国的大飞机研制不可能进展如此之快。另外,核武器的爆炸模拟、地震预警、抗击新冠肺炎药物研发等领域也离不开超级计算机。
目前世界运算速度排第三位的超级计算机是中国的神威太湖之光,峰值性能达每秒12.5亿亿次,运算速度相当于普通家用电脑的200万倍,神威太湖之光一分钟的运算量需要全球72亿人用计算器不间断运算32年。
人工智能的发展对算力提出了更高的要求。除了训练,人工智能算法实际需要运行在硬件上,也需要推理,这些都需要算力的支撑。然而,能提供超强计算能力的超级计算机,价格也是超级昂贵,不是一般人都能使用得到的。
目前的人工智能算力主要是由专有的AI硬件芯片,以及提供超级计算能力的公有云计算服务来提供。其中GPU领先其他芯片,在人工智能领域中用得最广泛,GPU有更高的并行度、更高的单机计算峰值、更高的计算效率。
一般来说,GPU浮点计算的能力是CPU的10倍左右。另外,深度学习加速框架通过在GPU之上进行优化,再次提升了GPU的计算性能,有利于加速神经网络的计算。
云计算是计算能力的放大器。云计算是一种基于互联网的分布式超级计算模式。在远程的数据中心里,成千上万台服务器等计算设备连接起来组成一个云,协同计算。云中的单个计算机性能可能非常一般,甚至就是普通电脑,但是很多一般加在一起的计算能力却不容小觑。
将GPU和FPGA的计算能力部署在云端对外提供云服务意味着优势的进一步放大。云计算甚至可以让你体验每秒10万亿次的运算速度,计算能力堪比超级计算机。俗话说得好,三个臭皮匠顶个诸葛亮、聚沙成塔、集腋成裘。
当前,随着人工智能算法模型的复杂度和精度愈来愈高,互联网和物联网产生的数据呈几何倍数增长,在数据规模和算法模型的双层叠加下,人工智能对算力的需求越来越大。
毫无疑问,人工智能走向深度学习,计算力已成为评价人工智能研究成本的重要指标。可以说,计算力即是生产力。
从智能时代的三个要素来看,我们也可以进一步解析出云计算、大数据和人工智能之间的关系。为了简化和帮助理解,以炒菜这个应用场景为例来说明它们之间的关系:
大数据相当于炒菜需要的食材,也就是生产原料。云计算等算力就相当于炒菜需要的煤气/电力/柴火,人工智能算法就相当于烹饪的方法,算法和算力也就是产生动力的生产引擎。有了生产原料和生产引擎,就可以在不同的应用场景下生产出我们所需要的不同东西。
2006年Hinton教授等人提出了深度学习算法,实现了人工智能算法理论的创新突破经过艰苦训练,选手实现突破性进步;随着移动互联网的生活化普及,促进了AI发展的“大数据”产生;大数据和深度学习等算法的双剑合璧,再配合摩尔定律下的算力快速提升——大数据、算力、算法作为输入,从技术角度推动了人工智能的发展。只有在实际的场景中进行输出,才能体现出人工智能的实际价值。
人工智能的常见应用场景包括:自动驾驶、虚拟助理、金融服务、医疗和诊断、设计和艺术创作、合同诉讼等法律实务、社交陪伴、服务业和工业。应用场景的不同决定了人工智能的应用落地和效果。同样是物流分拣中心,规模不同、信息化基础不同、企业数据不同、人员素质不同,对人工智能的要求和所发挥的效益也自然不同了。
人工智能发展到如今还是一个被大数据喂养起来的小怪兽,而且在深度学习算法没有明显突破的情况下,人工智能实现自我学习能力看起来还遥遥无期。因此,AI对人类的替代性以及威胁,还远没有达到让人类担忧的地步,当前大家探讨最多的还是人工智能在各个领域的应用。
(作者史爱武系中国电子学会云计算专家委员会委员,中国通信学会云计算专家委员会委员,教育部战略研究中心云计算首席科学家,武汉纺织大学云计算与大数据研究中心主任)
数据、算法和算力,5G时代智能风控要关注什么经过艰苦训练,选手实现突破性进步?
世界上唯一不变的就是变化本身,这句话在套用在风控身上非常适用。风控跟业务是紧密联系在一起的,而业务是不断变化的,这就决定了风控模式要主动去适应和追赶业务模式的变化。就像4G来临之前人们很难预测到会有短视频、直播等应用的出现,随着5G的大范围商用,在可预见的几年内,一些全新的业态将会出现,甚至一些业态将会超越当下人们的思维框架,风控体系业务模式、业务场景的发展将变得难以预测。我们尝试着从过去的经验来谈谈5G时代可能会给风控带来的挑战。如果将现有的风控体系简化成一个抽象的公式,大概是这样的。
数据 + 算法 + 算力 = 决策
狭义地讲,有更多的数据、更适应的算法、更强大的算力,就能做出更精准的风控决策。当然在实际应用层面,情况要复杂得多,往往需要多个机构和系统进行跨维度、成体系的综合协同。比如通过可信数据体系的建设,缓解算力的负担,并提升用户体验;通过联邦学习等前沿算法的研发,解决部分数据获取的敏感和隐私问题;通过建立一套正反馈的决策流程,帮助算法和模型自动化迭代提升等。随着5G时代的到来,信息的获取和传递的速度会更加迅猛,相应的风险的传递和感染也将进入前所未有的不确定期。在数据、算法、算力三个维度,5G都会给传统的风控体系带来新的挑战。
一
数据——数据滥用和隐私保护问题严峻
1.新型数据的处理
5G时代全世界的数据量会产生指数级增长,而且这些数据大部分将会在新的物联网场景下诞生,比如智能设备、智能制造、智能家居、智慧金融、智慧交通、智慧城市等领域,如何更好发挥这些替代数据的价值之外,数据滥用和隐私保护的问题会成为各界更为关注的议题。
2.可信的端环境
回顾互联网和计算机的发展历史,可以发现一条清晰的脉络,即计算、存储、网络能力不断拆分为更细的粒度,比如从大型主机、小型机、pc服务器、虚拟机、容器和微服务,再到现在的serverless。
5G时代这条规律依然适用,未来瘦客户端+云计算的组合模式可能性是比较大的。在瘦客户端的环境下如何解决端的安全,现有的风控体系如何跟5G原生的安全机制相结合等问题会显得异常重要。
二
算法——算法自动化奇点来临
性能考验是算法首当其冲的挑战,更深层次来讲,算法本身的安全问题其实更值得警惕。风控决策很多时候就依赖于几个核心模型并行得到的结果,换言之 模型能力就是风控能力,算法安全就是线上服务安全。攻击者当然也深谙此道,近年来一些针对AI模型的特定攻击方式频繁发生,例如:数据污染、投毒、药饵、模型恶意代码、模型窃取、模型逃逸、拒绝服务等等。
在5G时代,将会催生出更多算法,当下机器学习与深度学习的无监督训练算法可能是迈出了算法自动化的一小步, 在5G高并发、低延迟、实时决策的基础上,我们大胆预测算法自动化的奇点将会来临,越来越多的业务需要算法自动化处理。如何避免算法的错误,以及可能带来公平与公正,谁来决策和监督等等问题,人们将会陷入一个空前激烈的舆论和技术攻防战中。
三
算力——寻求边缘和中心的协调
一套完整的风控系统会用到包括规则计算、流计算、图计算、机器学习、深度学习等在内的多种计算方式。根据麦特卡夫定律,当网络节点越多,价值就越大,同时节点之间的连接数量会成几何倍数上升, 5G时代算力的瓶颈将是一大挑战,有人提出通过边缘计算解决这一问题,但对于风控体系来说可能集中式的系统更有优势,可以充分发挥“风控大脑”的作用。
我们能否寻求到效率和性能的平衡点?
现在关于5G可能给智能风控体系带来的挑战,很多思考、判断还是比较浅显和主观,甚至一些观点在未来有可能被证明是错误的。尽管我们还不能马上拿出完善的解决方案,但至少先预判风险从何处而来,才能更好的未雨绸缪。现在我们能确定的是,5G肯定能催生出新的生态、新的技术架构、新的商业模式,虽然很难对这个“新”准确定义,但是我们已经听到由远及近的脚步声,随着时间的推进,下一代风控系统会逐渐明朗,同盾作为行业的领军企业,正在多方布局,以积极的姿态迎接新的产业革命。
【作者:丁杨 同盾科技产品总监】
日前,中国信息通信研究院发布《人工智能白皮书(2022 年)》,报告提出:算法、算力和数据被认为是人工智能发展的三驾马车,也是推动人工智能发展的重要基础。
一、在算法层面,新算法不断涌现,超大规模预训练模型等成为近两年最受关注的热点之一
1、预训练模型参数数量、训练数据规模按照 300 倍/年的趋势增长,跨模态预训练大模型日益普遍,已经从早期只学习文本数据,到联合学习文本和图像,再到如今可以处理文本、图像、语音三种模态数据,未来使用更多种图像编码、更多种语言、以及更多类型数据的预训练模型将会涌现。
2、轻量化深度学习技术不断探索,计算效率显著提升。复杂的深度学习模型往往需要消耗大量的存储空间和计算资源,难以在端、边等资源受限情形下应用,具备低内存和低计算量优势的技术成为业界需求。
3、“生成式人工智能”技术不断成熟,未来听、说、读、写等能力将有机结合起来。目前,“生成式人工智能”技术被广泛应用于智能写作、代码生成、有声阅读、新闻播报、语音导航、影像修复等领域,通过机器自动合成文本、语音、图像、视频等正在推动互联网数字内容生产的变革。
4、知识计算成为推动人工智能从感知智能向认知智能转变的重要探索。目前,围绕着知识获取、知识建模、知识管理、知识应用等过程,已经形成了涵盖知识图谱、知识库、图计算 等技术,覆盖知识表示、知识计算、知识推理与决策能力的体系,
二、在基础算力层面,单点算力持续提升,算力定制化、多元化成为重要发展趋势;计算技术围绕数据处理、数据存储、数据交互三大能力要素演进升级,类脑芯片、量子计算等方向持续探索 。
三、在数据层面,以深度学习为代表的人工智能技术需要大量的标注数据,这也催生了专门的技术乃至服务,随着面向问题的不断具体化和深入,数据服务走向精细化和定制化;此外,随着知识在人工智能的重要性被广泛提及,对知识集的构建和利用不断增多。
AI的三大基石:数据、算力和算法
近年来,人工智能(AI)发展迅速并日益受到重视,日前中国信息通信研究院发布的《全球人工智能战略与政策观察(2020)》报告指出,截至2020年12月底,全球已有39个国家和地区制定了AI的战略政策、产业规划文件。AI三大核心要素是数据、算力和算法。
图片由“小i机器人”公司提供
数据是AI算法的“饲料”
算法是AI的背后“推手”
AI算法是数据驱动型算法,是AI的推动力量。主流的算法主要分为传统的机器学习算法和神经网络算法,目前神经网络算法因为深度学习的快速发展而达到了高潮。南京大学计算机系主任、人工智能学院院长周志华教授认为,今天“AI热潮”的出现主要由于机器学习,尤其是机器学习中的深度学习技术取得了巨大进展,并在大数据和大算力的支持下发挥了巨大的威力。当前最具代表性的深度学习算法模型有深度神经网络(简称DNN)、循环神经网络(简称RNN)、卷积神经网络(简称CNN)。DNN和RNN就是深度学习的基础。DNN内部的神经网络层可以分为三类,输入层、隐藏层和输出层。一般来说第一层是输入层,最后一层是输出层,而中间的层数都是隐藏层。DNN可以理解为有很多隐藏层的神经网络,是非常庞大的系统,训练出来需要很多数据、很强的算力进行支撑。
算力是基础设施
AI算法模型对于算力的巨大需求,推动了今天芯片业的发展。据OpenAI测算,2012年开始,全球AI训练所用的计算量呈现指数增长,平均每3.43个月便会翻一倍,目前计算量已扩大30万倍,远超算力增长速度。在AI技术当中,算力是算法和数据的基础设施,支撑着算法和数据,进而影响着AI的发展,算力的大小代表着对数据处理能力的强弱。算力源于芯片,通过基础软件的有效组织,最终释放到终端应用上,作为算力的关键基础,芯片的性能决定着AI产业的发展。
算法、算力、数据作为AI核心三要素,相互影响,相互支撑,在不同行业中形成了不一样的产业形态。随着算法的创新、算力的增强、数据资源的累积,传统基础设施将借此东风实现智能化升级,并有望推动经济发展全要素的智能化革新。让人类社会从信息化进入智能化。
加快补齐AI芯片短板
从技术架构来看,AI芯片可以分为通用性芯片、半定制化芯片、全定制化芯片和类脑芯片(特点是功耗低、响应速度快)。AI本质上是使用人工神经网络对人脑进行的模拟,替代人们大脑中的生物神经网络。由于每个任务对芯片的要求不同,所以可以使用不同的AI芯片进行训练和推理。
在过去二十年中,处理器性能以每年大约55%的速度提升,内存性能的提升速度每年只有10%左右,存储速度严重滞后于处理器的计算速度。随着AI技术的发展,所需数据量变得越来越大,计算量越来越多,“内存墙”(内存性能严重限制CPU性能发挥的现象)的问题越来越严重。因此,存算一体(将部分或全部的计算移到存储中,计算单元和存储单元集成在同一个芯片,在存储单元内完成运算),有望成为解决芯片性能瓶颈及提升效能比的有效技术手段。
目前,核心算力中芯片通用的GPU占主导地位。IDC的研究指出,2020年,中国的GPU服务器占据95%左右的市场份额,是数据中心AI加速方案的首选。但IDC也做出预测,到2024年,其他类型加速芯片的市场份额将快速发展,AI芯片市场呈现多元化发展趋势。近年来,我国AI虽然取得了不少的突破和进展,比如“小i机器人”公司主导了全球第一个AI情感计算的国际标准,并在国际上具备一定的竞争力,但AI芯片对外依赖较大,并缺乏AI框架技术支撑。
未来人们对科技的依赖会与日俱增,AI也将会成为大国竞争的焦点。为摆脱我国AI的短板,有专家表示AI芯片方面我国可以借鉴开源软件的成功经验,降低创新门槛,提高企业自主能力,发展国产开源芯片;算法框架方面则可通过开源形成广泛的应用生态,广泛支持不同类型的AI芯片、硬件设备、应用等。( 来源:科普时报)
周智勇:智慧城市建设进入数据、算法和算力融合推进的新阶段,构建算法和算力能力的公共资源平台将成为的新制高点经过艰苦训练,选手实现突破性进步!构建智慧城市数字孪生体其实不是终极目标,最终目标是通过数据、算法和算力的跨场景融合应用为城市创造管理价值、社会价值以及企业价值。
目前,业内存在的难题是数据源源不断,但是,算法和算力资源却跟不上。
人工智能面临着四大挑战。分别是算力供应严重不平衡,稀缺而且昂贵;比如很多传统行业对部署的场景要求高,环境恶劣多变;云边的数据无法协同和互通;专业技术要求门槛高,专业人才短缺。
http://www.ocn.com.cn/shangye/201909/xkijh10140647.shtml
数据在不断升迁,算力增加是必然的,往后更需要大算力芯片。而大算力的芯片除了感知之外,还可以在边缘侧提取特征和空间分析;到了中心侧,能够完成二维、三维、四维数据的分析。
http://news.yesky.com/hotnews/422/457385422.shtml
算法孵化器的目的是通过把整个算法产生过程工具化、标准化来降低一个单一算法的一次性产生成本,并为客户提供快速应用的能力。
http://www.sohu.com/a/290381283_115503
从算力、算法、数据和应用看AIGC
01、核心观点
AIGC未来已来,超预期持续出现。从2018到2023年,四代GPT模型高速进步,从简单的问答、阅读理解、文本总结,到在众多测试 中获得“人类级别表现”评级,AI迭代进化的速度越来越快。可以预期,AI达到人类智能水平、乃至超 越人类智能水平的时代会以超预期的形态和速度出现。
数据、算力、算法为AIGC核心要素,海内外厂商各占鳌头。数据,通过算力,最后产生了算法或者应用。数据作为新兴生产要素,数据的拥有者、加工者是产 业发展的基础。算力作为基础设施,是AIGC资本开支的主要受益者,核心参与者英伟达、AMD竞争优 势显著。AIGC的技术壁垒主要体现在算法上,当前通用型AI由GPT领跑,而在细分领域上,行业内的主 要参与者包括谷歌、Meta、Anthropic、Hugging Face和百度等公司。随着细分龙头竞相研发创新算 法和优化现有技术、以及模型迭代下对数据、算力的需求高速膨胀,AIGC行业技术壁垒将不断提高,现 有优秀参与者护城河极深。
AIGC市场潜力巨大,应用领域迎来生产力解放。全球AI软件市场规模将在2025年达到1260亿美元,2021年到2025 年年复合增长率为41.02%。一级市场的火热也反映了AIGC发展的确定性趋势。在大模型的快速迭代推 动下,搜索引擎、办公软件、汽车、媒体、AI绘画设计、AI广告营销、智能工作助理等应用率先落地的 行业将具备较强商业化机会。
02、生成式AI:ChatGPT引燃市场,数字经济未来已至
生成式AI:自然语言处理演变十余年,迎来变现阶段
AIGC(AI Generated Content)即生成式AI,多领域应用逐渐成熟。AIGC涉及无监督和半监督学习算 法,截至目前其发展历程主要分为三个阶段:统计机器学习方法阶段(2010年前):首先对数据进行手工标注,然后构建其重要特征,最后构建概率 模型并进行参数优化,从而将概率最大的输出作为结果;基于深度学习的神经网络模型(2010年-2017年):深度学习算法被引入,本质上是通过大量数据训练 神经网络,主要表现形式为:CNN(卷积神经网络)、RNN(循环神经网络)等。相比统计学习方法, 省去了复杂且手工的特征构建;基于Transformer结构的预训练模型(2017年至今):利用大量无标注数据进行自监督学习,然后再使 用少量的标注数据对下游任务进行微调(即迁移学习)。
生成式AI:GPT模型迭代四大版本,进化速度不断提升
OpenAI创立于2015年12月,发布ChatGPT引燃AI行业热度。GPT系列是OpenAI打造的自然语言处 理模型,采用以Transformer结构为核心的模型,其最大特点是使用了大量的未标注的语料进行无监督的 预训练,然后在各种有监督的任务上进行微调。OpenAI于2022年11月先后推出了GPT-3.5和ChatGPT,GPT-3.5使用了更新的语料进行预训练,而 ChatGPT是基于GPT-3.5的对话机器人,能够根据用户的输入生成流畅、有逻辑的回答,以及完成撰写论 文报告、翻译文字、编写代码等文本生成任务,并且能根据聊天的上下文进行互动。
生成式AI:AI产品全面开花,生产力将达新高度
GPT模型稳定进步,AI已是成熟生产工具。从GPT-1到最新发布的GPT-4模型,其应用已经不仅局限 于问答、阅读理解等文本处理,虽然目前GPT-4在现实场景中的能力可能不如人类,但在各种专业和学术 考试上表现出明显超越人类水平的能力,GPT-4在模拟律师考试中,分数排在前10%;相比之下,GPT3.5的得分则在倒数10%附近。随着算力、算法、数据量的演进,行业内不断出现高质量的AI产品,微软New Bing、AI绘画、智能 驾驶等等,体现出AI未来在多个领域的应用潜力。ChatGPT版Office、百度“文心一言”两大产品正式推 出,或将AI的生产力推向新的高度。
生成式AI:AI进化加速,数字经济未来已至
AI行业星辰大海,数字经济未来已至。从2018到2023年,四代GPT模型高速进步,从简单的问答、 阅读理解、文本总结,到在众多测试中获得“人类级别表现”评级,此外近期AI衍生产品的层出不穷,显 现出背后AI行业的星辰大海。2020年,马斯克预言五年内人工智能将比人类更聪明,当前AI迭代进化的速度越来越快,虽然GPT 还未通过图灵测试,距离真正的“智能”还有距离,但我们认为,AI达到人类水平、乃至超越人类的时代 即将到来。
生成式AI:算力、算法、数据三位一体
数据,通过算力,最后产生了算法或者应用。AIGC是人工智能、大数据、云计算、5G等多个技术领 域的整合,是一种跨领域的合作发展模式。在AIGC行业中,算力、算法、数据是三个核心概念,它们共同 构成了这个领域的基础设施。未来随着技术的进步和应用场景的不断拓展,这三个概念将继续发挥重要作 用,推动整个行业的创新和发展。
03、数据:大模型训练的基础资源
数据:大模型训练的基础资源,需求不断扩大
数据是训练大模型的基础资源,以GPT系列模型为例,对比三代模型间使用的数据集,训练所需的 数据集在质量和数量方面均不断提升。随着人工智能模型迭代发展,高质量数据集的需求将进一步增长。从自然数据源简单收集取得的原料数据并不能直接用于有监督的深度学习算法训练,必须经过专 业化的采集、加工,形成相应的工程化训练数据集后才能供深度学习算法等训练使用。目前,带有监督学习的算法对于训练数据的需求远大于现有的标注效率和投入预算,基础数据服 务将持续释放其对于算法模型的基础支撑价值。
04、算力:大模型发展带来高算力需求
算力:算力需求不断攀升,GPU行业市场巨大
AIGC模型硬件以GPGPU为主,GPU市场规模有望在2030年超过4000亿美元。GPU在并行计算方 面具有性能优势,在AI领域分化成两条分支:一条是传统意义的GPU,专门用于图形图像处理用途;另一 条是GPGPU,作为运算协处理器,增加了专用指令来满足不同领域的计算需求。使用GPGPU在云端进行 模型训练算法能够显著缩短海量训练数据的训练时长,减少能源消耗,从而降低人工智能的应用成本,目 前全球人工智能相关处理器解决方案仍以GPGPU为主。根据VerifiedMarketResearch报告,2021年全球GPU芯片市场规模已经达到了334.7亿美元,并预 计到2030年将达到4,773.7亿美元,CAGR高达33.3%。GPU市场保持着高速增长态势,其在人工智能领域 中仍然是不可或缺的计算资源之一。
算力:英伟达芯片龙头市场地位稳固
英伟达:高算力芯片龙头,AI芯片市场地位领先。人工智能平台需要巨大的数据处理能力,英伟达的 A100显卡适合于支持ChatGPT、Bard等工具的机器学习模型,这款芯片能够同时执行众多简单的计算,而 这对于训练和使用神经网络模型很重要,使得A100显卡成为目前主流AI芯片。长期展望,AI芯片市场快速增长将带动英伟达营收快速增长,根据中商产业研究院数据显示,预计全 球AI芯片市场规模有望从2020年的约175亿美元提升到2025年的726亿美元,年复合增长率32.9%。根据花 旗集团预估,ChatGPT 的使用可能会在 12 个月内为英伟达带来 30 亿至 110 亿美元的销售额。
算力:AMD封装理念Chiplet领先,推出高性能APU
AMD:高算力芯片代表企业,即将推出世界首款集成数据中心CPU和GPU的APU产品。在2023年的 CES上,AMD预览了AI推理加速器AMD Alveo V70,主打高能效,峰值AI算力可达到400TOPS,TDP仅 75W。AMD称这是最强AI算力的75W TDP级产品。AMD还预览了其首款集成数据中心CPU和GPU的APU产品AMD Instinct MI300。该款产品采用了 Chiplet封装理念。Chiplet策略是一项重要的硬件创新,摆脱了单芯片微缩的限制,同时能够优化设备的性 能、功耗和性价比。MI300加速器专为领先的高性能计算(HPC)和AI性能而设计,借助3D封装技术将 CPU和加速计算单元集成在一起,总共有1460亿个晶体管。
算力:英伟达、AMD垄断全球,国产芯片奋起直追
全球GPU市场中英伟达和AMD占据96%份额,国内GPU主要研发企业为海光信息、寒武纪等。根据 Wccftech,2022Q3独立GPU市场中英伟达和AMD分别占据88%、8%市场份额。根据海光信息招股书公 布技术指标数据,当前国内高端GPU相比国际巨头在显存频率、带宽等参数上还有一定差距,但在典型应 用场景下,深算一号已基本能够达到国际上同类型高端产品的水平。在国际市场上,英伟达和AMD在高性能计算和人工智能领域具有丰富的产品线和完善的生态系统, 叠加长期积累的技术优势和市场地位,预计仍将长期维持AI算力芯片领域的龙头地位。
算力:国产芯片发展迅速,填补AI市场空缺
高端芯片进口受限,国产芯片需求加速扩大。在NVIDIA、AMD高端产品被限制向中国出售的情况下, 国产大模型算力需求将快速推动国产芯片市场增长,当前国产GPGPU芯片的研发和生产已经取得了一定的 进展,海光、炬芯、寒武纪等企业均拥有具备自主知识产权的GPU芯片,为国内高性能计算和人工智能领 域的发展提供了重要支持。根据前瞻产业研究院,国产人工智能芯片自2020年来呈爆发式增长,2023年市场空间预计将超过 1,300亿元,2020-2023年CAGR为95.86%。总体而言,在国际关系紧张、芯片进口受限的前提下国产人 工智能芯片市场未来的发展前景广阔,随着国内厂商加大研发投入和技术创新力度,进一步提升产品性能, 看好其在国内乃至国际市场中获得更多的份额和竞争优势。
05、算法:大模型算法助力AIGC突破
算法:微软Azure超算为GPT提供保障
Azure算力支持,数亿投入始现回报。GPT系列是OpenAI打造的自然语言处理模型,基于文本 预训练的GPT-1,GPT-2,GPT-3三代模型都采用以Transformer结构为核心的模型。微软在2019年向OpenAI投资10亿美元,并为OpenAI建造了一台由数万个A100 GPU组成的大 型AI超级计算机,成本或超过数亿美元。GPT模型正是由这台超级计算机提供支持,OpenAI试图训 练更多需要学习海量数据、拥有超大参数规模的AI模型,需要长期访问强大的云计算服务,GPT-3的 参数量达到了1,750亿,微软构建了一个可在非常大的范围内运行且可靠的系统架构,这使得 ChatGPT成为可能。
算法:ChatGPT引入最新模型GPT-4具备识图能力
算法:GPT-4模型回答准确性显著提高
相较GPT-3.5,回答准确性显著提高。根据OpenAI公布数据显示,GPT-4在专业和学术方面表现优 异,在诸多标准化考试中均取得了优秀的分数。比如其能通过模拟律师考试,且分数在应试者的前10% 左 右,相比之下,GPT-3.5的得分在倒数 10% 左右。GPT-4在GRE(Graduate Record Examination)数 学考试中取得应试者前20%左右成绩,而GPT-3.5仅能排在应试者后25%。GPT-4在大部分语言上的准确性均超过了GPT-3.5在英语上的表现。OpenAI使用 Azure Translate 将 MMLU 基准 —— 一套涵盖 57 个主题的 14000 个多项选择题 —— 翻译成多种语言。在测试的 26 种 语言的 24 种中,GPT-4 优于 GPT-3.5 和其他大语言模型(Chinchilla、PaLM)的英语语言性能。
算法:最大视觉语言模型PaLM-E,可操控机器人
谷歌:发布目前最大视觉语言模型PaLM-E,有望率先落地智能机器人相关产品。PaLM-E是一种多 模态视觉语言模型(VLM),具有 5620 亿个参数,是全球已知的最大视觉语言模型。根据谷歌公布的演示视频显示,只需要给 PalM-E 下达一条高级命令,比如“把抽屉里的薯片拿给 我”,它就可以给一个带机械臂的移动机器人平台(由谷歌机器人开发)生成行动计划,然后自行执行。PaLM-E 通过分析来自机器人摄像头的数据来实现这一点,整个过程不需要对场景表示进行预处理。并且,PaLM-E表现出了“正迁移”,又称助长式迁移,它能把一项任务中学到的知识和技能迁移至另一项 任务,而且与单任务机器人模型相比具有“明显更高的性能水平”。
算法:针对研究群体的模型“LLaMA”,目标明确
Meta:“LLaMA”致力于辅助学术研究人员完成研究工作。LLaMA (Large Language Model Meta AI)模型参数相对少,意味着运行模型算力要求较低,但基准测试表现优秀。同ChatGPT、New Bing不同,LLaMA是一个开源的“研究工具”,旨在完成在文本生成、问题回答、书面材料总结,以及自 动证明数学定理、预测蛋白质结构等工作帮助研究人员推进研究工作。根据Meta发布的信息,LLaMA包含4个基础模型,参数分别为70亿、130亿、330亿和650亿。其中, LLaMA 65B 和 LLaMA 33B在1.4万亿个tokens上训练,而最小的模型LLaMA 7B也经过了1万亿个tokens 的训练。在大多数基准测试中,参数小的多的LLaMA-13B的性能优于GPT3.5的前身GPT3-175B,而 LLaMA-65B更可与业内最佳的Chinchilla-70B和PaLM-540B竞争。
算法:对人工智能的安全性监督日益重要
Anthropic:聚焦“安全”的人工智能,或将成为AI安全领域专家。随着大语言模型的发展,AI在很 多任务上的能力将会超过人类,这将让人类无法监督模型。为了确保 AI 在超过人类能力后仍保持安全性, 需要开发一种可扩展的模型监督技术。CAI( Constitutional AI )技术即是这种模型监督技术,原理是人类可以指定一套行为规范或原则, 而不需要手工为每个有害输出打标签,模型根据这套行为规范和准则选择最佳结果。Anthropic所开发的 聊天机器人Claude,在对话安全领域上做得更为突出,更擅长拒绝有害词或有害的引导,与人类价值观更 加相符。并且CAI技术有望对未来所有人工智能模型实施有效安全性监督。
算法:构建AI开发平台,加速AI模型迭代更新
Hugging Face:与亚马逊旗下云计算部门AWS扩大合作,将在AWS上构建下一个版本语言模型。近日,AWS宣布与美国明星AI创企Hugging Face扩大合作,以加速构建生成式AI应用的大型语言模型和 大型视觉模型的训练、微调和部署。Hugging Face是OpenAI的主要竞争对手之一,其主要业务包括生产 AI产品和托管其他公司开发的产品,已发展成AI开发者共享开源代码和模型的在线中心之一。据AWS数据库、分析和机器学习副总裁Swami Sivasubramanian透露,Hugging Face将在AWS上 构建其语言模型的下一个版本BLOOM。该开源AI模型在规模和范围上将与OpenAI用于研发ChatGPT的大 型语言模型竞争,将运行在AWS自研AI训练芯片Trainium上。
算法:国产大模型奋力追赶,行业布局广泛
百度:国内首个类GPT产品,有望在外部压力驱动下快速推动国内应用结合落地。“文心一言”尽管模 型能力水平上与ChatGPT等有一定差距,但在下游应用逐步对接后,有望依靠合作伙伴的高质量数据集快速 提升模型能力。由于国内无法使用ChatGPT的API接口,且出于数据安全等角度考虑,势必需要国产大模型, 百度“文心一言”作为国产大模型的先行者,在国内政策扶持和产业链协同发展的背景下,将进一步加速国 内AI技术进步和产业化进程,填补市场空缺。根据百度文心大模型的布局全景,“文心一言”有望通过飞桨开源开放平台、百度智能云等赋能到工业 、能源、金融、通信、媒体、教育等各行各业,通过接入合作伙伴的方式,进一步获取高质量数据集以强化 模型训练调整,快速提升模型性能。
06、产业应用:各领域应用加速落地,商业化前景广阔
产业应用:AIGC市场潜力巨大,落地领域迎来生产力解放
AIGC市场潜力巨大,即将实现多领域应用。根据Tractica的预测数据显示,全球AI软件市场规模将在 2025年达到1260亿美元,2021年到2025年年复合增长率为41.02%。在大模型的快速迭代推动下,AIGC 市场预计将保持高速增长,市场潜力巨大。生成式AI领域在一级市场同样受到青睐,全球早期资金调研机构 CB Insights最新报告显示,2022年有110笔创投交易和ChatGPT概念有关,投资资金超过26亿美元。我们预计搜索引擎、办公软件、汽车、媒体、AI绘画设计、AI广告营销等应用率先落地的行业将具备 较强商业化机会,AI服务将极大解放生产力,带来行业新模式。
【搜索引擎】微软(MSFT.O):高质量广告更加符合用户需求
搜索引擎的主要代表为微软Bing。根据用户搜索内容,必应将生成相应问题答案的方案,比如当用户 输入“计划一次为期五天的墨西哥之旅”的命令时,除了返回一些网址链接供你参考之外,跟使用 ChatGPT 一样,必应对话框会直接给你写出一个方案,用户可以直接复制这个答案,不满意的话也可以要 求它再生成一个另外的方案,而必应可能会在回复中给出与搜索内容相关的广告。由于生成式搜索下回复将 对用户具有更高的匹配度,因此广告也将更符合用户需求。
【办公软件】微软(MSFT.O):AI助手解放生产力,办公模式迎来变革
【汽车】Mobileye(MBLY.O):自动驾驶或达新高度
【媒体】Buzzfeed(BZFD.O):率先落地AI,互动更加个性化
根据CBS消息,美国知名媒体BuzzFeed宣布与OpenAI合作,将从“Quizzes”栏目入手,引入生成式 AI进行内容创作。该栏目主要由一系列有趣的问题测试组成,比如包括“测测你是迪士尼里的哪位公主”, “你最像复仇者联盟里的哪位超级英雄”之类等,根据用户回答生成个人报告。ChatGPT接入到Buzzfeed后,将被用于为每位客户生成个性报告的编写过程中,AI的自动化生产内容 将为这一工作缩减不必要的人工劳动,从而降低内容生产的成本,有望迎来人力成本的解放。根据Buzzfeed 同创办人兼执行长Jonah Peretti表示,AI将会被应用在建立测验、集思广益,并协助为阅听众提供客制化内 容,帮助媒体作者提高效率。
【设计绘画】Stability AI:AI高效绘图,改变行业工作模式
目前该行业领域暂无对应上市公司,主要公司之一为Stability AI。Stability AI是一家元宇宙及数字媒 体工具开发商,构建了可制作数字艺术的AI绘画平台“Stable Diffusion”,该工具是一种根据描述生成图片 的AI技术模型。只需输入简单的文字描述,其就能在几秒钟内自动生成一幅真实的画作。AI技术的发展让人们的想象逐 渐成为现实。无论是需要一个角色立绘,还是设计场景背景,均可以通过AI绘图工具迅速完成。该类AI绘图 应用有望为设计绘画行业带来效率的极大提升,释放大量人工劳动力,人类所扮演得角色将更倾向于提出意 见,而不是亲自做图。
【游戏】Scenario、网易(9999.HK):生成游戏素材,增强交互体验
游戏资产生成:Scenario 允许创建由游戏开发人员或游戏艺术家训练的自定义生成器,以仅匹配他们 自己图像的风格。在用户上传了一组定义给定游戏或项目的角色、物品、环境或其他资产的视觉效果后, Scenario平台可以根据用户上传数据快速生成相应游戏资产,大大降低了游戏开发成本。增强交互体验:近期网易旗下手游《逆水寒》官方宣布,实装国内首个游戏内类GPT技术,采用了大量 来自网易伏羲人工智能实验室以及网易雷火事业群的 AI 技术。从官方公布演示视频来看,《逆水寒》手游已 经能让智能 NPC 和玩家自由生成对话,同时也能基于对话内容做出合适的逻辑行为反馈,包括声音和形体动 作。生成式AI在游戏中的应用可以大大增强玩家剧情代入感,大幅提高游戏交互体验,提升玩家对游戏的探 索欲望。
【广告营销】Jasper AI:快速创建各类广告内容,降低营销成本
Jasper AI是一个AI文本生成工具,用户可以通过其自动创建博客文章、社交媒体文章、广告、电子书 、登陆页面副本、故事、小说等等。一旦用户给出一些输入文本(关于需要生成的内、标题、相关关键词等 的简介),它就会生成对应的原创内容。其深耕广告营销领域,有望成为垂直领域行业龙头,主要具备以下 三个优势:
精细的营销模板:用户可以根据想要生成的内容形式,选择更加符合需求的模板,平台提供50个简短的文 案模板,可帮助用户为各种日常任务创建文案,其中包括用于为电子邮件、网站、博客、广告、电子商 务、社交媒体、视频等编写内容的 AI 模板。产品交互体验优秀:该平台工具交互界面清晰易上手,产品符合用户使用逻辑,且会根据用户反馈频繁更 新优化。优秀的配套培训体系:Jasper AI提供名为 "Jasper BootCamp" 的培训,帮助新用户快速了解该软件的工 作原理,并且获得营销基本知识。
.
《南方治理评论》稿约
《南方治理评论》始创于2013年,CNKI来源集刊。广州大学南方治理研究院主办、社会科学文献出版社出版的连续性学术辑刊。《南方治理评论》秉持“培育公共精神,直面转型中国,诠释社会热点,扩展学术深度,贴近重大需求,服务国家治理”,追求“本土化、专业化、个性化、国际化”,崇尚原创研究、微观研究和深度研究的学术精神,试图在中国繁杂的地方语境下运用本土话语体系着力解读地方性知识和日常性逻辑。主要设置有“学术一线”、“数字治理”、“健康治理”、“灾害治理”、“南国讲堂”、“伶仃书评”、“回归访谈”等栏目。
通讯地址:广州市大学城外环西路230号文逸楼512室
投稿邮箱:gdgzpar@163.com
投稿网站:http://iedol.ssap.cm.cn/(选择“社会政法”)
投稿体例:https://pan.wps.cn/l/srr2hdj
《南方治理评论》第8辑
《南方治理评论》第7辑
《广州公共管理评论》第6辑
《广州公共管理评论》第5辑
《广州公共管理评论》第4辑
《广州公共管理评论》第3辑
《广州公共管理评论》第2辑
《广州公共管理评论》第1辑
当前浏览器不支持播放音乐或语音,请在微信或其他浏览器中播放 痴情冢 音乐: 贾青;徐溢 - 新天龙八部 电视原声带
广州大学南方治理研究院
还没有评论,来说两句吧...