AI可能真的比人更懂这个宇宙( 二 )


天体研究非常独特和艰难的地方在于 , 这是一个统计学几乎无从下手的领域 。
根据哈勃太空望远镜2019年以前的观测结果建立的假设是 , 宇宙共有2万亿个星系 , 其中小型星系有几十亿颗恒星 , 大的星系可以包含近4000亿颗恒星 , 如果以每个星系平均2000亿颗恒星在估计 。 全宇宙总共有4千万亿亿颗恒星 , 而这仅仅是恒星 。
除了我们所居住的地球以及已知极其有限的天体外 , 宇宙中几乎所有空间都藏在未知里 , 人类对于宇宙的理性认知长期处在极其贫乏的数据基础上 。
AI、机器学习当下的应用普遍总与大数据联系在一起 , 但在天文探索的语境下 , 这个已知数据的仓库家徒四壁 , 于是“小样本学习(Few-shotLearning)”被更加重视起来 。
小样本学习不是某项技术 , 而是一种综合的研究方式 , 指在有限的信息中建立完整的分类模型 , 并且以这个模型去对未知的信息完成分类 。 简单来说 , 一个孩子在看了几张绵羊的照片之后就可以在动物园里认出其他品种的羊 , 这就是某种通过少量图像识别某个视觉对象的小样本学习概念 。
AI可能真的比人更懂这个宇宙
文章图片
这对人类大脑来说轻而易举 , 但对于机器学习来说却非常困难 , 但由于天体研究的特殊性 , 小样本学习又是必不可少的 。
腾讯优图实验室总监汪铖杰表示 , 虽然整体上优图需要处理处理百亿TB(1TB=1024GB)的数据量 , 但实际上其中有效样本很少 。 “现在为止我们用于学习的也就是100TB左右的脉冲星样本” , 而FAST每天产生的数据量就高于500TB 。
半监督学习是小样本学习的一个思路 , 在统计学概念缺乏实际土壤时 , 以脉冲星样本搭配更多非脉冲星样本来构建训练模型 , 可以使得机器学习整体在特征提取上更加充分 。
除此之外 , 在这个脉冲心探索的项目中有另外两种小样本学习的具体思路 。
一种是数据扩增 , 即在常规的脉冲星上面做位移的偏移 , 或加一些宇宙仿真的噪音叠加 , 通过把观测数据的误差人为地加进去 , AI可以将那些“疑似”脉冲星的图片数据标注出来 。
另一种方式是对抗生成式的学习方法 , 让AI在学习过程中从已有样本中生成新的样本 , 然后继续用于未来的计算 。 优图实验室里与FAST合作的算法团队在今年新引进了一位国家天文台的博士后来做小样本学习的模型设计 , 也是为了在样本数量有限的情况下让模型能进一步契合对脉冲星特性的预测 。
“以M31(仙女座星系)做个例子 , 到目前为止M31还没有找到任何一个脉冲星 , 我们可以预测一下它可能的样子 , 然后大量模拟出数据放到模型里学习 , 然后用FAST对M31观测到的大量数据去比对 , 因为只要找到一颗 , 这就是一个从0到1的突破” , 汪铖杰说 。
宇宙也在“培养”AI“探星计划”一年之后 , 汪铖杰提到了优图实验室与FAST最初结缘的细节 。
2019年腾讯宣布企业文化升级 , 科技向善被提到了显眼位置 , 那之后优图实验室团队在部门内部做了一次讨论 , 关于AI在普适化过程 , 除了一些常规应用外还能做哪些事情 。 “探星计划”并不产生任何经济效益 , 动力在于优图实验室对于AI普世化的愿景 。
那场头脑风暴之后排出了一个序列 , 优先级最高的就是FAST 。
彼时的优图实验室副总经理黄飞跃带着项目去见FAST团队 , 两个小时后双方就签订了项目合同 。 “我从来没有见过一个项目这么快就定下来的情况 , 可见大家对这个项目认可度非常高” , 池明旻表示 。