微博|人工智能技术创新,赋能微博内容理解与分发( 二 )


这种算法 , 对信息量比较少的节点尤为重要 , 比如 , 对系统里面的新用户 , 也就是我们常说的冷启动用户 , 他本来的信息就非常少 , 不过可以通过网络中临近的用户 , 来推导这个用户的信息 。 这就是超大规模图计算的魅力所在
人工智能还有一个明显的技术趋势 , 就是从专用模型走向通用模型 。 目前的AI模型绝大多数仍然是任务专用的 , 通常针对具体任务设计特定结构的模型 , 一个模型专门做一件事 , 比如 , 自然语言处理 常常会使用Bert模型、图像处理 经常采用CNN模型 。
从专用模型走向通用模型则是一个技术发展趋势 , 谷歌在前些年提出这一构想 , 希望通过构造一个通用的大模型 , 达到“一个模型做多件事”的目标 。
不同任务数据输入后 , 通过路由算法 , 选择神经网络的部分路径到达模型输出层 , 不同任务既有参数共享 , 也有任务独有的模型参数部分 , 通过这种方式来达成“一个模型做多件事”的目标 。
另外 , 强化学习是人工智能技术发展趋势里面一个很重要的领域 。 大家提到强化学习 , 可能第一时间想到的是AlphaGo , 确实 , AlphaGo和李世石的“世纪之战“ , 是人工智能的里程碑事件 。 其实 , 强化学习在其他领域也有很多的结合点:如自动打游戏 , 自动驾驶 , 机器人等领域 。
个人觉得 , 只要我们深刻理解复杂的业务场景 , 找到一个合适的 , 容易量化的reward函数 , 强化学习技术就会在业务发挥重要的价值 。
前面跟大家简单的介绍了人工智能的几大发展趋势 。 这些都是我们在具体实际工作中的一些感受 , 也是微博对人工智能工作理解的一个总结 。
我们应该感恩这个时代 , 人工智能的飞速发展 , 让我们能做的事情越来越多 , 也让我们的事情越做越好 。 微博和大部分互联网公司一样 , 正在享受着人工智能 给我们带来的红利 。 我们正在把人工智能方方面面的技术 , 与我们的核心业务深度结合 , 赋能各个应用场景 。
具体来说 , 我们的应用场景 , 包括:关系分发 , 兴趣推荐 , push , 超话 , 视频 , 新闻等业务场景 。
微博推荐系统面临复杂多样的业务场景 , 微博环境下做推荐系统 , 既具有鲜明的微博特色 , 同时又面临着复杂的业务场景 。 主要体现在三个方面:首先是无处不在的社交关系 。 我们知道 , 微博作为国内最大的社交媒体 , 目前月活用户达到5个多亿 , 而这些用户通过关注关系、发博文、对博文的转评赞等各种行为 , 建立起了一个庞大的社交网络 。 其次 , 微博内容具有时效性强、多样性高的特色 , 很多社会热点事件都是第一时间在微博引爆的 , 而且作为综合媒体 , 微博涵盖了几十个高质量的垂直领域 。 第三 , 是多元化场景的推荐需求 。 我们微博很多场景 , 比如关系流、热点流、视频流等 , 都有很强的推荐需求 。
简单的说 , 微博推荐系统整体由三个部分构成:第一部分是 , 微博内容理解、也就是我们对微博文本 , 图像 , 视频的理解 。 第二部分是 , 微博用户理解 , 也是我们常说的用户画像 。 第三部分是 , 基于我们对微博内容的理解 , 对用户的理解 , 把高质量的微博内容 , 分发给感兴趣的用户人群 , 这就是微博推荐系统要做的事情 。
首先要分享的是微博内容理解 , 微博内容包含了文本、图像、视频三类不同类型的信息 。 其中 , 对文本的理解 , 是微博最重要也是最基础的一项工作 。 对微博内容打标签 , 是对文本理解的重要组成部分 。
为此 , 我们构建了一个三级的内容标签体系 。 第一级是比较宽泛的类别定义 , 比如“体育”、“娱乐”等类别 , 目前包含56个类别;第二级是在第一级基础上的细化 , 比如“体育”一级类别下就有:“足球”、“篮球”等细化类目;第三级标签是主要是实体识别 , 比如具体到的某一个球星 , 目前包含几十万个这样的三级标签 。