文章图片
【有道云笔记|AI越来越强,但我们快要养不起了】
当下风头正劲的深度学习 , 起源于真空管计算机的时代 。 1958年 , 美国康奈尔大学的弗兰克·罗森布拉特受大脑神经元的启发 , 设计了第一个人工神经网络 , 这个人工神经网络被命名为“深度学习” 。 罗森布拉特知道 , 这项技术超越了当时的计算能力 , 他惋惜地表示:“随着神经网络连接节点的增加……传统的数字计算机很快就会无法承担计算量的负荷 。 ”
幸运的是 , 计算机硬件在几十年间快速升级 , 使计算速度提高了大约1000万倍 。 因此 , 21世纪的研究人员得以实现具有更多连接的神经网络 , 用来模拟更复杂的现象 。 如今深度学习已经广泛普及 , 被应用于下围棋、翻译、预测蛋白质折叠、分析医学影像等多个领域 。 深度学习的崛起势如破竹 , 但它的未来很可能是坎坷的 。 罗森布拉特所担忧的计算量的限制 , 仍然是笼罩在深度学习领域之上的一片阴云 。 如今 , 深度学习正在逼近计算工具的极限 。
巨大的计算成本
一个适用于所有统计学模型的规则是:要想使性能提高k倍 , 至少需要k2倍的数据来训练模型 。 又因为深度学习模型的过参数化 , 使性能提高k倍将需要至少k4倍的计算量 。 指数中的“4”意味着 , 增加10000倍计算量最多能带来10倍的改进 。 显然 , 为了提高深度学习模型的性能 , 科学家需要构建更大的模型 , 使用更多的数据对其进行训练 。 但是计算成本会变得多昂贵呢?是否会高到我们无法负担 , 并因此阻碍该领域的发展?
为了探究这一问题 , 美国麻省理工学院的科学家收集了1000余篇深度学习研究论文的数据 , 涉及图像分类、目标检测、问答系统、命名实体识别和机器翻译等 。 他们的研究显示 , 深度学习正面临严峻的挑战 。 “如果不能在不增加计算负担的前提下提高性能 , 计算量的限制就会使深度学习停滞不前” 。 芯片性能的提升是否跟上了深度学习的发展?并没有 。 在NASNet-A增加的1000多倍的计算量中 , 只有6倍的提升来自于更好的硬件 , 其余都是通过使用更多的处理器或运行更长时间达到的 , 伴随着更高的成本 。 理论告诉我们 ,提高k倍的性能需要增加k4倍的计算量 , 但在实践中 , 增加的计算量至少是k9倍 。
根据研究人员估计的图像识别领域“计算成本—性能”曲线 , 将错误率降到5% , 需要进行1028次浮点运算 。 另一项来自美国马萨诸塞大学阿默斯特分校的研究显示了计算负担隐含的巨大经济和环境成本:训练一个错误率小于5%的图像识别模型 , 将花费1000亿美元 , 其消耗的电能产生的碳排放与纽约市一个月的碳排放量相当 。 而想要训练错误率小于1%的图像识别模型 , 成本就更是天价 。
计算成本的重负在深度学习的前沿已经变得显而易见 。 机器学习智库OpenAI斥资400多万美元 , 设计并训练了深度学习语言系统GPT-3 。 尽管研究人员在操作中犯了一个错误 , 但他们并没有修复它 , 仅仅在论文附录中简要解释道:“由于高昂的训练成本 , 对模型重新训练是不现实的 。 ”
企业也开始回避深度学习的计算成本 。 欧洲的一家大型连锁超市最近放弃了一项基于深度学习预测哪些产品将被购买的系统 。 该公司的高管判断 , 训练和运行该系统的成本过高 。
- 芯片|上市仅4个月,跌价1000元,微云台主摄+6nm芯片+4400mAh
- 大屏|尺寸直追笔记本 曝国产厂商将推出高刷大屏旗舰平板
- 计算|雄安城市计算(超算云)中心主体结构封顶
- 百度|马化腾的一句话,腾讯市值一小时暴涨1400亿港币,马云格局还是小了
- 封顶|雄安新区:城市计算(超算云)中心提前完成主体结构封顶
- 封顶|雄安新区:城市计算(超算云)中心提前完成主体结构封顶
- CPU|阿里反贪第一人蒋芳,入职23年将7名高层送入狱,连马云都可以查
- 增资|撤离、暂缓!马云没有想到,蚂蚁融资生变,原因浮出水面
- 云曦灵|对象终于能包分配了?百度希望未来两年实现“数字人自由”
- 零售业|阿里再生独角兽,估值百亿美元,马云果然有远见