基于蜜网的工业互联网协同检测技术研究( 三 ) 【摘要】本文根据工业互联网

文章图片
鉴于蜜网所采集到的数据质量难以保证，存在数据缺失、错误等问题。同时来自不同系统的数据格式也并不统一，需要先进行数据清洗才能进行后续数据的有效分析。数据清洗目的在于格式化数据，通过数据转换方法将多源异构数据转换成统一的目标数据格式，形成统一规范。而后通过数据筛选、数据修复等手段提高数据的质量，完成对不同数据指标之间的转换计算。有时对工业互联网平台的蜜网数据进行清洗解析所得到的结构化数据中，存在某些多维特征集合共同表征某个特定的含义。因此数据清洗完后，还需要针对多源异构数据集合进行数据融合处理，以使得该特征数据在保留基本信息同时减少冗余。数据归一化存储目的是屏蔽数据之间类型和结构上的差异，解决多源异构数据的来源复杂、结构异构问题，有利于上层对数据管理和分析，实现用户无差别访问，充分发挥数据的价值。在具体数据存储中，合理数据库的选择可以减少数据检索的时间，提高数据查询的准确度，是后续数据关联分析处理的基础。
3.3安全分析层
安全分析层结合智能学习分析技术，深度识别蜜网数据流量中的恶意行为和未知威胁。本层可分为检测建模和威胁识别两个阶段。其中检测建模阶段，主要采用基于控制行为聚类分析的业务模式智能学习分析技术，结合工业互联网生产网络通信主体控制报文交互特点，通过提取表征工业互联网生产网络通信业务报文的多维特征量，采用k-means聚类算法从大量工业互联网样本数据中挖掘出正常业务控制行为的类簇，建立工业互联网生产网络的正常业务行为特征库。在威胁识别阶段，则利用该特征库对蜜网所捕获的新生报文进行实时监测以判断是否是攻击，安全分析层工作原理如图4所示。

文章图片
安全分析建模阶段是从大量历史工业互联网通信业务网络报文中提取业务行为的一组类似<控制域、应用层功能码、指令方向、……、指令发送时间>等的n维特征向量，通过对这些特征向量的学习，使用k-means聚类分析算法，构建业务行为模型。通过k-means算法统计分析实际报文特征来进行业务指令行为的数据挖掘，完成聚类分析，使得同一类的业务行为被聚集到了相同的聚类子类中，实现对业务指令行为的功能分类。
k-means聚类子类形成了多类业务指令行为集，通过对明显离群点或重复错误指令形成的聚类子类进行标记过滤，构建出业务的多层次特征集合，采用监督型机器学习算法，如支持向量机算法（SupportVectorMachine ， SVM），对上述已标记的历史报文集进行学习，构建出正常业务访问模型。
在威胁识别阶段，通过采用单模式匹配算法和DFA相结合的方式进行工业互联网网络流量高速解析及业务还原，构造实际系统运行过程中的业务指令特征向量，利用训练阶段建立的正常业务模型对监测向量进行实时比对，如果新报文不属于任何类簇，则判断发生异常的指令级攻击模式。
3.4安全评估层
安全评估根据蜜网收集的攻击行为数据，结合安全分析结果，对整体工业互联网网络安全状态进行评估[4] 。在本层中主要侧重于工业互联网的设备和通信安全，重点评估系统中的身份认证、访问控制、安全审计、恶意代码防范、资源控制、输入输出控制、漏洞检测与修补、控制系统及应用软件测试与代码审计、设备内置模块检测等方面，并根据工业互联网实际应用场景的业务特点、实体结构和控制协议等进行测评项的细化，使得评估具有针对性，能更精准发现工业互联网的安全漏洞、脆弱性，安全评估层工作流程如图5所示。