标王 热搜:
 
 
当前位置: 首页 » 公告中心 » 行业新闻
人工智能环保吗?
 [打印]添加时间:2023-03-13   有效期:不限 至 不限   浏览次数:612
   在过去十年,人工智能(特别是深度学习)取得了显著成效。当Siri读懂你说的话、脸书认出了你的表亲、谷歌地图为你重新规划路线时,都大概率涉及到了深度学习系统。
 
  鲜为人知的是,这些模型正消耗着惊人的成本,不仅体现在真金白银上,也体现在能源消耗上。照目前的迹象来看,人工智能只会给气候危机火上浇油。可相比之下,我们的大脑(功耗小于40瓦)可就高效多了。如果我们把基于神经科学的技术应用到人工智能中,那么用于计算的能耗将有可能大大降低,从而减少温室气体排放。这篇博文旨在解释到底是什么导致了人工智能过大的能源消耗,以及如何用基于大脑(工作原理)的技术解决这种过高的能源成本问题。
 
  为什么人工智能如此耗能?
 
  首先,我们有必要简单了解一下深度学习模型的工作原理。深度学习模型的“智能”之处和你的大脑并不一样。它们不以结构化*的方式学习信息。与你不同,它们不懂什么是因果关系*、上下文*或类比*。深度学习模型是用“蛮力”的统计技术*。
 
  例如,你要是想训练一个深度学习模型来辨认一张猫的照片,你需要向它展示上千张由人类标记过的猫的图像。该模型并不知道猫比狗更有可能爬树、玩羽毛*。因此除非我们拿包含树和羽毛的猫的图像来训练它,否则它不会知道这些物体的存在可以帮助对猫的识别。而为了做出这些推断,我们需要用所有可能的物体组合图片对模型进行“蛮力”训练。
 
  *译者注
 
  结构化:作者此处想表达的也许是深度学习模型不像人一样建立各种概念,而且知道这些概念之间的关系(因果关系、先后关系、相似/相邻关系)。但深度学习模型确实是以结构化的方式来学习信息的——模型在加入归纳偏置后具有某种等变特性,能够处理特定结构的数据(图像、时间序列、图结构的数据等)。因此此处表述不准确。
 
  因果关系:诚如作者所言,机器学习模型一直为人诟病之处便是其仅习得关联,而非因果。但近期有研究已经开始探索似乎在大语言模型中涌现的因果关系,如Can Large Language Models Distinguish Cause from Effect?等。亦有相当多研究者开始关注因果表示学习这一新兴领域。
 
  上下文:事实上,上下文学习对自GPT3之后的大语言模型来说并不是什么难事,并诞生了in-context learning这样一个专门研究这一能力的子领域。近期包括Can language models learn from explanations in context?,Emergent Abilities of Large Language Models,What learning algorithm is in-context learning?Investigations with linear models在内的多项研究进一步探索了其机制。
 
  类比:近期已有研究表明,类比推理能力在大语言模型中涌现,如Emergent Analogical Reasoning in Large Language Models所述。
 
  深度学习模型是用“蛮力”的统计技术:原文如此,不一定正确。
 
  该模型并不知道猫比狗更有可能爬树、玩羽毛:值得注意的是,作者此处所描述的深度学习系统更多聚焦于单任务系统。但事实上,早在几年前,多任务学习(multitask learning)便已经成为十分流行的范式,并且目前最引人瞩目的一些深度学习系统更开始强调一个模型适用于多种任务,如DeepMind的Gato,Google的PaLM等。
 
  -Blaster Studio-
 
  这些运用“蛮力”的统计模型所产生的巨大能源需求是由于以下几个特点:
 
  需要成百万上千万的训练样本。在猫的例子中,训练好一个模型需要正面、背面、侧面、不同品种、不同颜色、不同阴影以及不同姿势的猫的图片。一只猫的形态有无数种可能性,因此为了成功识别一只猫,模型必须在众多版本的猫(的图片)上进行训练。
 
  需要很多的训练周期。从错误中学习是训练模型这一过程中的一部分。如果模型错误地把猫标记为浣熊,该模型需要重新调整它的参数以将图像分类为猫*,再重新进行训练。它从一次次错误中慢慢学习,这也需要一遍遍的训练。
 
  当遇到新的信息时得从头训练。如果这个模型现在要去识别它从未见过的卡通猫,我们得将蓝色卡通猫和红色卡通猫添加到训练集中,从头对它进行训练。该模型无法循序渐进地学习*。
 
  需要很多的权重和乘法。一个典型的神经网络包含很多由矩阵表示的连接或权重,其中一个或多个矩阵构成一层。为了计算一个输出,神经网络的后续层需要执行大量的矩阵乘法,直至最后得到一个结果。事实上,计算单个层的输出就需要数百万次浮点运算,而一个典型的神经网络可能包含数十到数百层,这使得其计算极其耗能。
 
  *译者注
 
  猫:原文为浣熊,此处应指猫。
 
  该模型无法循序渐进地学习:原文如此。但这一说法并不准确,机器学习中的增量式学习(incremental learning)或与其高度相关的在线/持续学习(online/continual learning)的目标便是循序渐进地学习,并期望最终能够建模从未见过的数据(分布外泛化),甚至识别从未见过的物体(零样本推断)。
 
  人工智能会消耗多少能源?
 
  一篇来自麻萨诸塞大学阿默斯特分校的论文称,“训练一个人工智能模型可以产生的碳排放量,相当于五辆轿车在整个使用期中的排放量。”然而,这项分析仅仅只针对一次训练而已。当模型经过反复训练而改进时,其能耗会激增。许多大公司每天都在训练成千上万个这样的模型,它们对此问题都十分重视。Meta就是这样一个公司,其最近发表的论文探索了人工智能对环境的影响、研究了解决问题的方法、并呼吁有所行动。
 
  当前最新的语言模型包含了数以亿计乃至万亿计的权重。其中一个流行的模型GPT-3就有1750亿个机器学习参数。该模型在NVIDIA V100 GPU上训练,虽然研究人员尚未披露该模型的能源使用情况,但通过研究人员的计算,如果使用A100系统则需使用1024个GPU、耗时34天、花费460万美元来训练此模型,也就是936兆瓦时。此外,谷歌AI刚刚公布了具有5400亿个参数的模型PaLM(Pathways Language Model)。随着模型变得越来越大以应对愈加复杂的任务,它们对服务器的需求呈指数增长。