fx|阿里千万实例可观测采集器 - iLogtail 正式开源( 三 )


iLogtail在阿里云飞天5K项目中的应用解决了日志、监控统一收集的问题 , 而当时阿里巴巴集团、蚂蚁等还缺少一套统一、可靠的日志采集系统 , 因此我们开始推动iLogtail作为集团、蚂蚁的日志采集基础设施 。 从5K这种相对独立的项目到全集团应用 , 不是简单复制的问题 , 而我们要面对的是更多的部署量、更高的要求以及更多的部门:

















百万规模运维问题:此时整个阿里、蚂蚁的物理机、虚拟机超过百万台 , 我们希望只用1/3的人力就可以运维管理百万规模的Logtail 更高的稳定性:iLogtail最开始采集的数据主要用于问题排查 , 集团广泛的应用场景对于日志可靠性要求越来越高 , 例如计费计量数据、交易数据 , 而且还需要满足双十一、双十二等超大数据流量的压力考验 。多部门、团队:从服务5K团队到近千个团队 , 会有不同的团队使用不同的iLogtail , 而一个iLogtail也会被多个不同的团队使用 , 在租户隔离上对iLogtail是一个新的挑战 。经过几年时间和阿里集团、蚂蚁同学的合作打磨 , iLogtail在多租户、稳定性等方面取得了非常大的进步 , 这一阶段iLogtail主要的特点有: 功能:支持更多的日志格式 , 例如正则、分隔符、JSON等 , 支持多种日志编码方式 , 支持数据过滤、脱敏等高级处理 性能:极简模式下提升到单核100M/s , 正则、分隔符、JSON等方式20M/s+ 可靠性:采集可靠性支持Polling、轮转队列顺序保证、日志清理保护、CheckPoint增强;进程可靠性增加Critical自恢复、Crash自动上报、多级守护 日志保序采集方案原理(细节可参考《iLogtail技术分享(一) : Polling + Inotify 组合下的日志保序采集方案》) 多租户:支持全流程多租户隔离、多级高低水位队列、采集优先级、配置级/进程级流量控制、临时降级机制 多租户隔离整体流程(细节可参考《iLogtail技术分享(二):多租户隔离技术+双十一实战效果》) 运维:基于集团StarAgent自动安装与守护 , 异常主动通知 , 提供多种问题自查工具 规模:百万+部署规模 , 千级别内部租户 , 10万+采集配置 , 日采集PB级数据 3 云原生阶段 随着阿里所有IT基础设施全面云化 , 以及iLogtail所属产品SLS(日志服务)正式在阿里云上商业化 , iLogtail开始全面拥抱云原生 。 从阿里内部商业化并对外部各行各业的公司提供服务 , 对于iLogtail的挑战的重心已经不是性能和可靠性 , 而是如何适应云原生(容器化、K8s , 适应云上环境)、如何兼容开源协议、如何去处理碎片化需求 。 这一阶段是iLogtail发展最快的时期 , 经历了非常多重要的变革: 统一版本:iLogtail最开始的版本还是基于GCC4.1.2编译 , 代码还依赖飞天基座 , 为了能适用更多的环境 , iLogtail进行了全版本的重构 , 基于一套代码实现Windows/Linux、X86/Arm、服务器/嵌入式等多种环境的编译发版 全面支持容器化、K8s:除了支持容器、K8s环境的日志、监控采集外 , 对于配置管理也进行了升级 , 支持通过Operator的方式进行扩展 , 只需要配置一个AliyunLogConfig的K8s自定义资源就可以实现日志、监控的采集 iLogtail Kubernetes日志采集原理(细节可参考《Kubernetes日志采集原理剖析》) 插件化扩展:iLogtail增加插件系统 , 可自由扩展Input、Processor、Aggregator、Flusher插件用以实现各类自定义的功能 iLogtail插件系统整体流程(细节可参考《iLogtail插件系统简介》) 规模:千万部署规模 , 数万内外部客户 , 百万+采集配置项 , 日采集数十PB数据 四 开源背景与期待 闭源自建的软件永远无法紧跟时代潮流 , 尤其在当今云原生的时代 , 我们坚信开源才是iLogtail最优的发展策略 , 也是释放其最大价值的方法 。 iLogtail作为可观测领域最基础的软件 , 我们将之开源 , 也希望能够和开源社区一起共建 , 持续优化 , 争取成为世界一流的可观测数据采集器 。 对于未来iLogail的发展 , 我们期待: iLogtail在性能和资源占用上相比其他开源采集软件具备一定优势 , 相比开源软件 , 在千万部署规模、日数十PB数据的规模性下为我们减少了100TB的内存和每年1亿的CPU核小时数 。 我们也希望这款采集软件可以为更多的企业带来资源效率的提升 , 实现可观测数据采集的“共同富裕” 。目前iLogtail还只是在阿里内部以及很小一部分云上企业(虽然有几万家 , 但是面对全球千万的企业 , 这个数字还很小) , 面对的场景相对还较少 , 我们希望有更多不同行业、不同特色的公司可以使用iLogtail并对其提出更多的数据源、处理、输出目标的需求 , 丰富iLogtail支持的上下游生态 。性能、稳定性是iLogtail的最基本追求 , 我们也希望能够通过开源社区 , 吸引更多优秀的开发者 , 一起共建iLogtail , 持续提升这款可观测数据采集器的性能和稳定性 。链接汇总: 1)阿里正式开源可观测数据采集器iLogtail:https://github.com/alibaba/ilogtail2)《iLogtail技术分享(一) : Polling + Inotify 组合下的日志保序采集方案》:https://zhuanlan.zhihu.com/p/293036003)《iLogtail技术分享(二):多租户隔离技术+双十一实战效果》:https://www.sohu.com/a/205324880_4659594)《Kubernetes日志采集原理剖析》:https://developer.aliyun.com/article/8063695)《iLogtail插件系统简介》:https://github.com/alibaba/ilogtail/blob/main/docs/zh/concept%26designs/Overview.md 作者 | 元乙 原文链接:https://developer.aliyun.com/article/828516?utm_content=g_1000312441 本文为阿里云原创内容 , 未经允许不得转载 。