新闻公告

终于有人把安全知识图谱技术讲明白了(下篇)

2022-08-31
浏览次数:
返回列表

三、 安全知识图谱技术框架

基于安全知识图谱,构建具有感知、认知、决策智能的安全应用,需要解决数据的统一建模、实体抽取与关系构建、复杂语义的推理分析和场景化的应用适配等不同层次关键问题。对应这些主要问题,本文将网络安全知识图谱自底向上的划分为三个核心层次,分别为:图谱构建层、推理分析层、应用能力层,一个安全可信层,整体框架如图7所示,概括了每个技术层次的主要技术能力。以下分别对各个层次做简要介绍。

8.png

图7 安全知识图谱技术框架 

01

图谱构建层

图谱构建层主要实现安全知识图谱的数据基础设施的构建。主要需实现包括本体设计、实体识别、关系识别、知识消歧、图谱构建、图谱存储、图谱计算等基础能力。


知识图谱的核心在于对数据的语义化组织模式的设计。通常来讲,知识图谱将各类格式的原始数据,如结构化数据、半结构化数据、非结构化数据,抽取为形如(Subject, Relation, Object)的三元组形式。在该形式下,实体Subject与实体Object之间,自然形成具有关系Relation的语义子结构。通过大规模语义子结构的串联组织,即构成完整的知识图谱结构,其中,Subject与Object实体的类型、两者之间Relation的类型,以及两者的属性类型的规范等,构成的完整模式,即构成了知识图谱的模式层本体范式。

9.png

图8 安全知识图谱本体模式设计样例

安全知识图谱的数据模式层,即针对网络空间安全领域的知识库、情报库、数据日志等领域知识进行本体建模,以给出归一化、抽象、可推理的安全本体范式。本体建模的过程,是整个安全知识图谱的构建与应用的基石——本体范式决定了知识图谱覆盖的知识/情报/数据范畴、数据抽象的粒度以及语义关联模板,进而决定了围绕知识图谱开展的相关推理应用的可用性、覆盖度以及使用价值。因此,构建知识完备、粒度适中、语义丰富的数据模式层本体库,是安全知识图谱技术中最关键的设计工作之一。


知识图谱的构建工作,即基于知识/情报/数据资料库,在数据模式层本体模式的规范下,抽取实例实体、关系及属性信息形成知识图谱数据层语义网络的过程。通常来讲,知识图谱的构建过程主要包括知识抽取、知识融合、知识存储、知识更新等主要步骤。在知识抽取环节,实体、关系、属性等要素按需从各类结构化、本结构化、非结构化数据中提取出来。在知识融合阶段,需完成各类实体的对齐,关系语义的消歧,知识的映射等工作,以将提供满足知识图谱质量要求、设计规范的数据资料。知识存储阶段,主要是将结构化语义网络数据存储到数据库中,一般的存储介质是各种类型的图数据库。在知识更新阶段,将根据数据层信息的实时性、置信度、语义明确性等维度和更新策略,剔除失效数据,更新最新状态,保证知识图谱信息的高价值属性。


构建安全知识图谱需要特别注意的是:一方面,需构建更细粒度的数据质量评估方法,以保证安全图数据的高置信度与高安全性,否则将可能影响基于知识图谱的安全应用的鲁棒性;另一方面,在知识/情报/数据的时效性管理方面,需要更灵活地更新机制,以保证图谱数据的时效性。


02

推理分析层

知识图谱的推理分析,主要面向高层次应用提供关联查询、知识压缩表示、知识归因预测等自动化、智能化推理能力支撑。主要的推理分析方法,包括图关联检索、基本的图数据挖掘算法、图的表示学习、图的推理学习等。图关联检索即通过最短路径、相似性分析等方法,提供指定实体、关系、属性特征查询的响应。基本的图数据挖掘算法,包括图上的节点聚类、社团行为发现、重要节点发现、路径挖掘等等,为知识图谱提供深入的数据洞见。图的表示学习,通过结构、属性等维度的学习方法,如Trans模型(TransE、TransH等),习得知识图谱关键要素的向量化压缩表示,可用于支持知识检索、知识推理等类型的技术实现。图的推理学习,则基于表示学习结果或通过端到端的图神经网络模型设计,如图神经网络,提供知识语义推导、关系链路预测等核心推理结果。

10.png

图9 典型的行为知识图谱推理分析

安全知识图谱的推理环节,需要重点解决多层次数据、情报、知识之间的语义鸿沟问题、大规模网络实体信息关联的依赖爆炸问题等多种基础性难题。语义鸿沟问题,主要是由不同来源、不同采集尺度的数据融合导致的高层语义难以对齐的问题。知识图谱构建的语义消歧技术,只能在特定的标尺下完成粗略的数据融合,但要实现跨源、跨维度的知识推理,仍需要有效的语义学习机制。依赖爆炸问题则是由于现有的数据采集技术、跟踪技术、知识建模技术的限制,安全知识图谱实体之间的信息流无法精确的刻画,上下游实体之间的信息依赖随着图上跳数的增加呈现指数级爆炸的现象,将导致知识图谱信息传播的消散。


03

应用能力层

本层次主要基于图谱的数据和分析基础设施,提供面向特定场景需求的安全知识图谱服务能力,抽象的可概括为建模、识别、富化、画像、测绘、溯源、归因、决策及预警等能力单元。场景需求+数据基础+分析能力的组合,可以形成基于安全知识图谱的技术栈。包括在安全运营中的XDR技术、威胁情报中的组织团伙分析技术、网络空间测绘中的攻击面观测技术、攻击模拟中的智能决策技术等等,都可以通过一种或多种图谱推理分析能力的组合,实现面向场景化需求的知识抽取与知识演绎推理以达成目标。具体技术应用场景,将在第四节介绍。

11.png

图10 安全知识图谱服务能力


04

安全可信层

除了安全知识图谱的核心技术能力基础外,还需在多个方面提供安全知识图谱的自身安全可信机制,主要包括数据质量评估、敏感数据防护、分析效果监测等。在数据质量评估方面,需通过量化的图谱质量评估指标,实现自动化的数据异常、缺失、错误等问题的识别,以保证安全知识图谱数据流程转换过程中的多阶段数据输入可信。在敏感数据防护方面,通过对企业、个人、组织等多级别敏感数据的自动识别与脱敏,支持知识图谱在不暴露敏感信息的情况下,完成从图谱构建到推理分析再到应用服务的整个知识建模过程。在分析效果监测方面,需提供可供反馈的人机接口,收集用户在不同场景知识服务中的细粒度反馈,并通过自动化的闭环机制,跟踪和持续优化相关参数、流程,向图谱管理组件提供关键指标的监测接口。


四、 安全知识图谱技术应用

安全知识图谱可以作为网络安全大数据分析的关键基础设施,以独立部署的模式或者融合服务的方式,提供数据、分析等多个层面的支撑。本节,将介绍四个典型安全知识图谱的应用场景,分别是利用知识图谱支持攻击研判信息富化、运营事件知识抽取、终端攻击检测调查以及威胁情报模式识别。


01

攻击研判信息富化

攻击事件研判依赖准确、丰富的事件上下文信息。上下文可涉及前述环境知识、行为知识、情报知识和知识库等多维度信息源。通过自动化的采集与构建方法,可构建类似图11所示可支撑研判的知识图谱数据库。该图谱数据库,基于威胁情报STIX2.0架构,融合了经典事件研判过程中,所依赖的脆弱性、缓解措施、应用案例等基础信息。通过基于指定类型线索的检索,能够高效的召回关联知识库信息,形成对待研判事件的增强,可提升事件的整体信息量,并提升大规模事件的归类、归并分析的效率。

12.png

图11 支持事件富化的安全知识图谱[6]


02

运营事件知识抽取

安全运营中心的集中式分析平台,汇聚了大规模的动态事件数据。这些事件数据,可通过IP、域名、邮箱等实体实现直接关联,也可通过事件的属性特征相似性实现潜在关联。通过这些关系的识别和提取,能够将时序事件数据,转化为动态事件关联的知识图谱结构,并可通过该结构观测和自动化抽取其中的子图模式与规律。例如,可以抽取指定类型实体的行为规律信息,形成包括行为基线、交互基线等;可以抽取事件之间的转移规律信息,形成包括事件交互基线等。相对于自顶向下的、基于静态知识库的知识富化,自底向上的、高度动态的事件知识抽取,能够实现事件知识的生产与事件行为的自验证,为攻击的研判、事件的分析提供具有环境自适应的动态知识结构。

13.png

图12 动态事件关联知识图谱


03

终端攻击检测调查

终端侧的数据采集与分析,能够提供细粒度的行为上下文,一直以来都是网络安全数据的重要组成部分。其中,溯源数据(Provenance)是终端侧数据的关键组成,当前操作系统(如Linux、Windows等)已具备高线溯源数采集的能力。有效的溯源数据挖掘方法,能够支撑威胁狩猎的多种任务场景。Provenance能够忠实记录终端上实体的行为逻辑依赖关系,自然形成溯源数据图(Provenance Graph,简称溯源图)。所记录的实体,包括文件(菱形)、网络(椭圆)、进程(矩形)等维度;根据实体对的类型,实体间关系又包括文件读写、进程创建、网络连接等等。在溯源数据完整有效采集的情况下,通过溯源图的后向追溯(backward-trace)和前向追溯(forward-trace),能够有效弥补网络侧的数据盲点,实现攻击事件的溯源与取证。在已知威胁分析方面,主要涵盖威胁模式匹配和事件重构溯源两方面主要工作。威胁模式匹配一般建模为图上的子图模式,需要解决图数据建模、查询子图的生成及查询优化等多个子问题。在未知威胁分析方面,目前主要有策略启发、频率建模、机器学习等几类方法。

14.png

图13 基于溯源数据的行为知识图谱[7-9]

    

04

威胁情报模式识别

通过知识图谱技术,能够从多个方面全面实现分析能力增强:针对突发性事件与常态化事件,情报关联图谱能够洞察攻击发展态势,通过跨域攻击行为识别,实现攻击团伙的快速定位,能够提供明确的攻击行为数据支持,可用于增强情报证据链,以及生产高质量、高可信的团伙威胁情报。能够通过全局视角,观测攻击者、攻击团伙的跨域攻击行为,观测整体的行为模式演化。图12给出了云端情报采样数据中,部署在不同位置的监测设备(紫色节点)监控下的攻击者(源IP)的关联图谱。可以看出,攻击事件出现了较为明显的团簇现象。一方面,少量受害者站点受到大规模攻击源的集中攻击;另一方面,攻击团伙利用大规模攻击基础设施,对指定的受害者群体发起了大规模的扫描与攻击行为。

15.jpg

图14 Log4j2攻击事件图谱跨域行为观测


五、 安全知识图谱技术趋势

可以预见,安全知识图谱技术的发展,将全面提升网络安全关键应用场景下的知识推理技术水平,推动安全智能从感知智能,向认知智能和决策智能驱动安全自动化的演进。当然,当前安全知识图谱仍处于蓬勃发展阶段,技术演进仍需要诸多问题需要解决。在此,我们从关键问题着手,展望安全知识图谱技术发展的关键趋势。


16.png

图15 安全知识图谱技术发展趋势

1) 知识获取层面:大规模多源信息自动化抽取与信息融合。网络安全知识图谱涵盖了网络与安全领域的核心概念原型与关联结构,涉及跨数据、情报、知识多层次的信息资料。一方面,需要基于自然语言处理技术、知识工程技术,实现更自动化的实体、关系、属性抽取方法,满足信息抽取的高实时性、高覆盖率、高容错性。另一方面,需要在质量评估、语义对齐、信息压缩等方面,提升数据信息的融合质量,提出信息冗余、信息失效、信息歧义等问题给后续建模推理带来的错误引导。


2) 知识表示层面:异构完备的知识统一表示。安全“大数据”不仅仅指数据规模庞大,还体现在数据结构的复杂性。包括文本类数据、时序数据、序列数据、图数据、时序图数据等等异构信息,需要在安全知识图谱中以统一、规范的表示形式进行组织,并提供一致的表示形式。探索基于神经网络的图表示学习方法,将时序维度与图关联维度进行完整的建模,是实现异构知识统一表示的关键方法之一。


3) 知识推理层面:鲁棒、准实时的因果推理。无论是攻击与威胁的关联,还是资产数据风险的识别,网络安全领域对行为、事件、意图的归因与溯源技术效果有较高的质量追求。因此,亟需探索具有精确信息流依赖能力的因果推理方法,以保证基于安全知识图谱的推理结果过程的鲁棒性,提升推理结果的准确性与置信度水平。此外,在大规模知识图谱上进行知识推理,仍需通过图分割技术、分布式学习技术等方式提升推理流程的并行度,以满足安全领域诸多应用场景的准实时需求。


4) 知识迁移层面:跨场景知识迁移与人机智能融合。基于安全知识图谱的应用,具有多个细分领域,如威胁情报计算、安全运营辅助、威胁动态建模等等。在多个细分领域应用中,将涉及不同范畴的知识本体与实例。可通过探索跨场景的知识迁移方法,将不同场景下的推理模式进行推广,实现推理分析能力的延展。此外,通过人机工程、推荐搜索等不同机制的人机协同方法,提供持续的人类知识经验与机器知识数据的信息融合接口,能够进一步加速安全知识图谱的的知识固化与知识拓展,提升相关应用的动态环境适应性。

参考文献

[1] Jajodia S, Noel S, Kalapa P, et al. Cauldron mission-centric cyber situational awareness with defense in depth[C]. MILCOM 2011 Military Communications Conference, 2011.

[2] Xu Z, Fang P, Liu C, et al. DEPCOMM: Graph Summarization on System Audit Logs for Attack Investigation[C]. IEEE Symposium on Security and Privacy (SP), San Francisco, CA, 2021: 22-26.

[3] The MITRE Corporation. MITRE ATT&CK Matrix for Enterprise[EB/OL]. https://attack.mitre.org/, 2020-10-27/2022-07-07.

[4] The MITRE Corporation. Common Attack Pattern Enumeration and Classification (CAPEC)[EB/OL]. https://capec.mitre.org/, 2021-02-25/2022-07-07.

[5] The MITRE Corporation.Common Weakness Enumeration (CWE)[EB/OL]. https://cwe.mitre.org/,

[6] 肖岩军,王津,赖智全. 基于知识图谱的APT组织追踪治理. 绿盟科技研究通讯

[7] Milajerdi S, Gjomemo R, Eshete B, et al. HOLMES: Real-Time APT Detection through Correlation of Suspicious Information Flows[M].  2019: 1137-1152.

[8] Hossain M N, Sheikhi S, Sekar R. Combating Dependence Explosion in Forensic Analysis Using Alternative Tag Propagation Semantics[C]. 2020 IEEE Symposium on Security and Privacy (SP), 2020: 1139-1155.[17]  Pei K, Gu Z, Saltaformaggio B, et al.

[9] HERCULE: attack story reconstruction via community discovery on correlated log graph[C]. Proceedings of the 32nd Annual Conference on Computer Security Applications, 2016: 583–595.


搜索