罗永浩|数据规模爆炸性增长,云原生数据仓库数据化运营实战分享( 五 )


(六)云上数据安全

关于云上数据安全的问题 , 我们展开来讲 。 每个公司都有绝密的数据 , 这些数据面临着许多安全问题 , 例如管理员/用户越权操作 , 窃取数据备份 , 恶意修改数据等 。 除此之外 , 还有数据在存储、查询、共享过程中全程加密 , 任何人(包括管理员)无法获取明文数据 。 保证日志在不可信环境中的完整性 , 任何人(包括管理员)无法篡改日志文件 。 保证查询结果在不可信环境中的正确性 , 任何人(包括管理员)无法篡改查询结果 。
以前的解法很简单 , 就是写到数据库的时候就把数据加密了 , 例如写进去叫123 , 通过加密就变成了乱序 , 如213312等 。 这个看似是一个很好的方法 , 但它有什么问题呢?它没有办法做查询 , 比方我们要查超过50块钱的交易 , 但是因为50通过加密以后就不是50了 , 可能就变成了500 , 而原来500加密完就是50 , 因此这个查询无法进行 , 相当于它变成了一个存储 , 无法做分析查询 。
(七)云端全程加密数据永不泄露

有没有一种方法能让我们做数据分析 , 同时既能保密 , 原来的SQL也都能去做?
这里面核心的事情就是我们采用的硬件 , 通过ApsaraDB RDS(PostgreSQL版)+神龙裸金属服务器(安全芯片TEE技术) , 可以提前把Key存到里面去 , 然后所有的计算和逻辑都在加密硬件中进行 。 由于整个过程受加密硬件保护 , 即使有人把系统的内存全部复制出来 , 复制出来的数据也全是加密过的 , 这就保证运维人员就算拿到绝密数据也没有泄露的风险 。
三、最佳实践 下面我们看一下几个最佳实践:
DMP:全链路营销

DMP(Data Management Platform)表示数据管理平台 , 也叫数据营销平台 。
营销最核心的事情是什么?营销最核心的事情是找人 , 找到最关心的一群人 , 专业词称为圈人 。
举个例子 , 什么场景需要圈人?比如今天我们想找一下对云原生感兴趣的人来一起讨论云原生 。 把对云原生感兴趣的人找到 , 这个过程就叫圈人 。
还有一种是类似于天猫淘宝报告 , 例如在双十一前的一段时间 , 商家认为某位客户今年可能要买个衣服或买一个包 , 是潜在客户 , 于是就去给TA推一些消费券等 。
这里面最关键的就是精准人群的定位 , 能够精准地把人群区分出来 。 中国大概有电商消费人群大概有8亿人 , 给对某样物品感兴趣的人群推送消息 , 这里面最核心的就是圈人的事情 。
阿里巴巴基于数仓去做圈人的事情 , 首先去找一些种子人群 , 这些种子人群数量大概为几百万人 , 是我们认为的高优质客户 , 比如每个月在淘宝上花5000块以上或1万块以上的人 。 把人群全出来后 , 第二步是将群体进行聚类 。
聚类的意思是把几百万人再分成几个小类 , 每一类里面可能喜欢一个类别 , 比方这一类喜欢买化妆品 , 另一类喜欢数码产品 , 还有一类喜欢买书 。 划分完小类以后 , 比如爱买化妆品的可能有10万人 , 但这10万人可能大部分之前已经买过化妆品了 , 这次大概率不买了 。
因此 , 我们需要在在8亿消费人群中找到真正可能买化妆品的人 , 该怎么做呢?
我们需要把每个客户的消费行为和历史购买记录转成AI模型的一个向量 , 如果有两位客户的购买行为是类似的 , 那么他们的向量距离就会非常小 , 这样的话我们的做法就很简单 。 例如 , 我们对数码产品感兴趣的人作为种子放到8亿里面去找 , 跟这些人种子向量距离最近的假如有1000万人 , 然后对这1000万人去发数码产品的广告或优惠券等 , 用这种方式去做业务营销 。