端侧 AI 开发难？揭秘 HUAWEI HiAI Foundation 助力快速部署 AI 应用的「超能力」作者|宋慧AI人工智能从几年前

文章图片
作者|宋慧AI人工智能从几年前的爆红到现在深入应用到各行各业，热度不降反升。与之相应的，在CSDN连续几年对开发者的年度调查报告都显示， IT技术开发者群体里， AI工程师一直是被追捧的高薪职位。不过随着AI技术快速发展， ResNet、BERT、ViT等前沿热门算法与模型层出不穷， NPU、IPU等AI底层加速硬件不断推出， AI应用开发的挑战与复杂度也在不断升级。以人脸识别为例，除了主流的识别模型算法，实际应用中如何提高识别精度，如何优化模型提高算力使用率，降低资源开销成本，以及让优化性能在不同终端识别设备快速落地，都是开发者需要去攻坚的技术难题。华为作为开发生态中重要的底层技术厂商，是CSDN重点报道的厂商之一。针对开发者需求，华为构建了软硬件全方位开放能力服务HMSCore ，其中， HUAWEIHiAIFoundation是为开发者提供端侧AI技术能力的平台。去年CSDN就采访报道了其中AI智能音视频开发服务AVPipelineKit的核心技术与设计思路。近日， CSDN再次专访了HUAWEIHiAIFoundation的多位技术专家，为开发者揭秘HUAWEIHiAIFoundation的近期技术进展，以及解决了哪些AI技术开发的新难点。详解HMSCore的HUAWEIHiAIFoundation架构，
【端侧 AI 开发难？揭秘 HUAWEI HiAI Foundation 助力快速部署 AI 应用的「超能力」】打造真正开放、平台化的AI技术服务
作为HMSCore中的AI技术能力的平台， HUAWEIHiAIFoundation在2018年3月上线发布1.0版本，短短几年的时间，第三方APP的调用量已经从1.0的日调用量100万+ ，增长到了2021年每日145亿的调用量，总调用量更是达到了每日600亿次。增长的数据也从侧面印证了AI的发展速度与普及度的惊人，以及HUAWEIHiAIFoundation的过硬实力。现在， HUAWEIHiAIFoundation已经支持了各类深度学习框架，如PaddleLite、MNN、ByteNN、MindSporeLite、TNN、KwaiNN等。接入各种深度学习框架后， HUAWEIHiAIFoundation推理加速平台，可以让开发者不再顾虑框架与底层硬件的优化问题，灵活选择不同的模型用于AI应用开发。另外， HUAWEIHiAIFoundation构建了异构计算平台FoundationHCL ，协同CPU、GPU、NPU等各类底层芯片的性能，共同向上为AI提供算力支撑。
文章图片
我们看到，现在的AI已经不再拘泥于高性能计算设备中，万物互联场景下， HUAWEIHiAIFoundation平台支持手机、平板、智慧屏、车机、音箱、手表等多种设备终端。从架构上，我们能非常清晰地看到， HUAWEIHiAIFoundation正在打造的，将是真正的开放、平台化的AI技术能力与服务平台。端云协同、多IP协同、ModelZoo等HMSCore的HUAWEIHiAIFoundation新特性，切实助力AI开发效率除了框架上的进展和成绩， HUAWEIHiAIFoundation团队一直在与众多头部AI应用开发者共同探索和推进解决AI开发中的实际难题。本次专访中，华为技术专家详细介绍了HUAWEIHiAIFoundation在近期推出的几个重要技术特性与功能服务。首先是HUAWEIHiAIFoundation近期新的特性——端云协同，能够帮助AI性能调优快速落地。以往AI性能优化更新（如对NPU算子库的优化更新），是通过系统ROM更新到终端上，更新周期长，时效性大打折扣。 HUAWEIHiAIFoundation将算子库、性能优化以插件形式放置于云侧，通过端侧（如App更新）快速推送到端侧，端侧通过插件进行模型编译，实现性能优化。
文章图片
据介绍，端云协同这一重要的功能特性已在HarmonyOS2.0版本中发布，并已在多家AI开发者的实际业务中上线使用，可以帮助开发者将AI性能优化策略快速推进到端侧，以及推进AI应用快速上线，切实地提升AI开发效率。另外，在AI业务的链条中，如视频解码、图像处理、渲染优化再到送显，由ISP、NPU、CPU、GPU等不同的IP算力支撑，想要数据流转顺畅，端到端获得良好体验，需要开发者对不同IP间衔接调试，工作量与技术难度挑战巨大。现在， HUAWEIHiAIFoundation已实现多个IP高效协同，以增强性能。例如矩阵计算的NPU ，逻辑计算、控制流计算用到的CPU、GPU ， HUAWEIHiAIFoundation通过异构实现调度使用。具体设计中， HUAWEIHiAIFoundation异构计算平台的各计算IP共享DDR内存，全流程数据零拷贝，节点之间内存自动分配，节点自动融合优化，以及调度任务自动编排，并支持优先级控制。