这个“搜索”很鸿蒙( 三 )


比如 , 多模态交互为用户带来方便 , 越来越多的人使用视觉搜索和视觉翻译 。 他们在博物馆观看梵高或莫奈的一幅画作时 , 拿手机扫一扫 , 视觉搜索会帮他讲解这幅画的背景 , 视觉翻译会将作品旁边的文字转变成游客的母语 。
这背后 , 技术研发不容小觑 。 谷歌曾为此收购了很多西班牙文图书馆 , 目的是训练机器更好地理解西班牙文 , 最终它的英语和西班牙语的翻译 , 准确率达到99.8% 。
在华为 , 搜索团队和2012实验室的研究人员 , 不断将更好的自然语言处理模型(NLP)和视觉识别模型(CV) , 应用到视觉翻译中 。 这带来了显著的效果 。 比如 , 中东的阿拉伯文字类似中国古代的阅读习惯 , 是从右往左读 , 而阿拉伯字母长得也很像 , 要通过字母上下方的点来区分 , 现在不少工具翻译得很机械 。 利用CV文字识别并结合机器翻译技术 , 华为视觉翻译做到的结果 , 比一般工具更准确而自然 。
除了视觉 , 语音搜索也变得越来越基本 。 比如一些线上问诊系统设计的不太友好 , 医院科室划分过细 , 复杂的诊疗流程都让老年人望而却步 。 而加入了语音识别和搜索 , 能引导老人更方便地就诊 , 帮助老人迈过医疗健康的数字鸿沟 。
这个“搜索”很鸿蒙
文章图片
为了提升搜索的多模态技术能力 , 人工智能技术是重要推力 , 而它可比谷歌当年决定搜索排序的PageRank算法 , 要复杂得多 。 在人工智能技术上 , 华为自然不会缺席 , 进行了从前瞻技术到实用技术的全方位投入 。
在前瞻领域 , 华为正在展开包含机器如何认知世界、人的意图和智能、如何理解人的生理学模型、人机接口等战略研究 。
通过这些研究 , 搜索技术在自然交互、对话系统、意图识别、视觉识别等上在不断提升 。
不仅是多模态 , 搜索也需要与场景结合 , 对用户行为进行分析 , 才能提供更有价值的服务 。
在一个案例中 , 用户在中午12点搜索“牛排” , 鸿蒙背后的搜索引擎猜测 , 他大概率是想找家牛排店吃饭 。 于是 , 在前几排的搜索结果中 , 为他优先展示附近商圈中打折的牛排店 , 以及口碑较高的店铺 。 但如果用户搜索的是牛排图片 , 搜索引擎会判断他此时大概率是在烹饪牛排 , 会优先提供牛排制作信息 。
在这样庞大复杂的搜索背后 , 要消耗大量的计算资源 。 华为过去数年在计算技术和云计算上的投入 , 让华为在计算性能和效率上、在规模支撑上具备一定优势 。 从算力规模上看 , 华为云已成为中国市场第二大、全球第五大云计算服务商 。
在鸿蒙生态下 , 现在 , 每分钟都有成千上万的设备连入网络 。 同时 , 人工智能技术编织的各种模型也在不断进化 , 人类的潜力和机器的能力正在形成共生关系 。 在万物互联的生态下 , 由于服务分散在越来越多的设备和应用中 , 鸿蒙为用户实现了全新服务提供方式——服务卡片 , 让服务尽量减少中间环节 , 直达用户 。 搜索成为背后的必要支撑 。
鸿蒙的服务卡片 , 是手机应用的一种新形式 。 与安卓和iOS定义的App不同 , 它能提炼一些服务中的必备功能 , 以卡片形式存放在手机上 , 用户不用再下载大而全的App 。 比如 , 用户需要出示“健康码” , 采用HarmonyOS3的华为折叠屏手机上 , 在负一屏有健康码“一屏双码”入口 , 它免除了点开微信/支付宝App、调出小程序等多个步骤 , 还能同时显示健康码与行程码 , 做到服务的“一步直达” 。
这个“搜索”很鸿蒙