阿里|只有阿里腾讯才懂的芯片秘密( 三 )
最好的下游技术与产品给你“导航”和试错,才能跟竞争对手打出一个漂亮的时间差。
那么云计算与半导体的关系同样如此。
譬如谷歌推出TPU时被普遍叫好,并使得GPU厂商产生警惕。很大原因便是,作为成千上万块芯片并行运算的使用者,云厂商太清楚芯片的问题到底出在哪儿了,毕竟样本实在是丰富。
早在几年前,多伦多大学曾做过一个关于“Dram致命缺陷”的重要课题。
他们经过多方周旋,终于从阿贡等大型国家实验室、谷歌和Facebook的大型数据中心取得了大量宝贵样本。让他们感到震惊的是,关于Dram的错误很常见,而一些数据中心的重大宕机事故更是源自Dram失常。
以谷歌为例,他们发现12% 到45% 的谷歌机器每年至少会遇到一次 DRAM 错误,有0.2%到4% 的机器由于 DRAM 错误无法纠正而意外关闭。
而在以往,无论是大型数据中心还是个人电脑中,产业内都会把Dram错误更多归咎于“软性问题”——根据IEEE杂志的解释,当物理设备在完全正常工作下,会受到某种短暂干扰(如宇宙射线产生的粒子)因而破坏了存储数据。
但这个想法此前几乎没有充分的实验支撑,某种程度上就是缺乏样本。没错,企业数据中心不愿透露,而实验室的样本量又少。实际上,经过他们的调查,结果令人震惊,其实大多数错误来自“硬性错误”。
没错,就是Dram芯片本身存在的问题。
调查者获得了谷歌某些数据中心的权限,在调查后发现,是一小部分机器造成了大部分错误。也就是说,错误倾向于一次又一次地出现在相同的内存模块上。
那么我们试想一下,如果是软性错误,譬如某个射线粒子导致Dram失常,那么应该被击中的几率是相同的。这就意味着,以前的论断都是错误的。
IEEE最后给出的解决方法偏向于云计算厂商,譬如,利用计算机操作系统来删除和预测内存错误地址或内存页。
但从硬件角度来思考,云厂商恰恰能发现那些实验室和消费端产品测试不出的硬件错误,极有利于半导体厂商改进和升级下一代硬件。
这可能也是云厂商一个个被戏称为“已变成CPU或存储器公司”的最大原因之一。
但无论如何,从设计、制造、量产等综合难度上,硬件需求量庞大的云厂商依然需要强依赖于半导体厂商。而云厂商的自我底层革新,以及与半导体巨头的紧密合作,或许在3~5年里,会对我们国内尚未壮大起来的存储等其他方面的自研能力,有一些实质性的帮助。
我是虎嗅科技组主笔傅博,关注半导体与自动驾驶。(微信:fudabo001,加微信请务必备注身份)
正在改变与想要改变世界的人,都在 虎嗅APP
- 阿里巴巴|马云还是看走眼了,天猫学京东玩自营,看来刘强东还是技高一筹?
- 腾讯已申请注册鹅享团商标 内测团购工具小程序
- 阿里巴巴|有关矢量图与位图的区别介绍
- 阿里巴巴|阿里巴巴投资睿力集成电路
- 医护人员|腾讯:加码捐款至 5000 万港元支持香港抗疫
- 阿里巴巴|弘辽科技:安踏创始人谈捐款100亿做慈善:钱放家里没什么用
- 键盘|传Keep架构调整冲击上市 估值20亿美元腾讯投资4轮
- 台积电|谷歌的科研能力,是华为15倍、阿里21倍、腾讯31倍?太扯了
- 阿里达摩院医疗AI团队获评全国科技抗疫先进集体
- 显卡|A卡只有走三A加成,以及专门搞A卡,优化的游戏表现才比N卡好