优图“撞”上脉冲星( 三 )


优图“撞”上脉冲星
文章图片
关于脉冲星 , 视觉AI能做什么
采访人员:这次合作一开始是怎么发起的?
黄飞跃:腾讯优图的定位 , 一方面是做很多的原生自发的科技探索 , 计算机视觉 , 最近几年也在做产业落地 。 另外一方面 , 我们也希望有更多的一些偏科研性的探索 。 出于这样的初衷 , 我们内部讨论 , 觉得优图的的AI、CV技术可以比较好的帮助FAST天文台探星的事情 。 我们有两个同事对天文、天体特别有兴趣 , 另外有个同事在读硕士的时候就做过一些天文的信号分析 , 所以我们就开始去寻找这样的合作 。
我们去年春节前就确定好了希望要在这个方面做一些探索 , 跟李老师建立一些联系 。 李老师专业的知识对我们非常有帮助 , 我们也有优秀的算法、比较强大的计算资源和计算能力 , 所以合作是非常顺利的 , 互相促进 , 互相提供对双方都特别有帮助的 。
采访人员:FAST团队在之前的研究中会用到人工智能方面的技术吗?
李菂:其实我们团队本身也会大量用到机器学习、人工智能相关的技术 , 但我们一般是用现有的工具 , 因为我们缺乏一线的 , 在底层做开发的能力——像天文这种 , 越是基础的学科就越毫无用处 , 一旦开始有实用性就会开始脱离基础研究的性质 。 这个等于是对研发的人员提了一些不太合理的要求 , 为什么要来做这个?这也是为什么我们非常愿意跟有专业背景和构架的单位进行合作 , 这种合作也是产生效益比较快的 。
在和腾讯优图的合作中 , 免不了一开始有一些学习的门槛和曲线 , 比如在计算效率、数据传输的地方还是有明显的需要改进的地方 。 但是这个磨合阶段进行得很快 , 在合作后我们最近已经有了脉冲星的发现 , 这是实打实的科学成果 , 我们还是非常兴奋的 。
采访人员:优图加入后 , 脉冲星新的发现是不是比以前更快了?
李菂:整个的效率更高 , 识别的速度是明显加快的 , 但对信息的最终认证还是要回到FAST团队的专业人员身上 。
其实我们拿到的原始观测数据 , 实际上像是一个视频素材 。 两个观测的维度一个是时间 , 一个是频率 。 但这个素材人脑人眼是无法处理的 , 实际上机器视觉在近几年内也无法处理 , 能处理的素材只到照片的程度 。 所以原来的办法是一段段截出来分析 , 把周期简化 , 把色散剪掉 , 当成一个个特征图 。 但现在有了优图的视觉AI技术加持后 , 我们可以通过AI视觉来直接分析原始的视频素材 。
黄飞跃:其实我们跟李老师合作的时候 , 最开始李老师他们团队也有非常好的框架基础的 , 不仅仅是说场景、数据、业务 , 也有成熟的机器学习的算法模型 。 我们在这个基础上 , 合作的这几个月取得了新的一些进展 , 比如最原始的一天采集到的数据大约有500T , 一个礼拜有3000万张的信号图片 , 数据量是巨大的 , 首先500T怎样转换成更有效的数据 , 实际上要做一系列的原始信号处理 , 我们把这个过程做了大幅的加速 。
另外对信号我们会用机器学习的方式来寻找疑似样本 , 再交给FAST团队的专业人员看是不是我们真正发现了脉冲星信号 。 这时候就要面对准确率的问题 。 我们后面新的算法在准确率上是会有比较大的提升 , 命中率会比原来高 , 这也降低了后期专业人士的人为筛选的工作量 , 这是最近两个月取得的一些成果 。
采访人员:目前AI探星上存在的难点在哪里?
黄飞跃:有两个难点 , 一个是做深度学习最核心的要有海量的已经有标注的数据作为训练数据 , 拿训练数据调整优化我们的模型 。 但脉冲星观测甚至天文领域里 , 有标注的训练数据仍然相对偏少 , 这时候我们用来训练可能会存在一些困难;第二个难点是 , 同样的天体信号用不同的望远镜、设备观测 , 得到的数据、展现形式不完全一样 。