导读:数据治理的价值,指对企业和整个数据管理的价值。所有市场都要求数据治理变得比以往任何时候都灵活易变,以适应更多需求的出现。很多企业组织正在认识到,尝试完全预先确定每一种可能的数据治理突发事件并为此做好相应准备是很困难的。
数据治理的价值,指对企业和整个数据管理的价值。所有市场都要求数据治理变得比以往任何时候都灵活易变,以适应更多需求的出现。很多企业组织正在认识到,尝试完全预先确定每一种可能的数据治理突发事件并为此做好相应准备是很困难的。
2023 Trends in Data Governance
数据治理的价值,指对企业和整个数据管理的价值。2023年,将体现在塑造该学科的两个最明显的趋势中。
首先,这个术语已经被专门从事访问管理、数据控制和企业安全内部方面的供应商所使用。这些供应商专注于法规遵从性、数据隐私和数据保护——在如今高度监管的环境中,这些已经迅速成为决定当代企业成败的因素。
其次,这个趋势体现出数据治理对越来越多的环境、用例和市场条件的实时适用性,所有市场都要求数据治理变得比以往任何时候都灵活易变,以适应更多需求的出现。很多企业组织正在认识到,尝试完全预先确定每一种可能的数据治理突发事件并为此做好相应准备是很困难的。
相反,他们现在试图调整数据治理结构,以便在发生这种情况时能够动态地进行调整。
TopQuadrant首席技术官Ralph Hodgson表示:“知道可能发生什么(通常数据治理就是要表达这一点)、已经发生了什么和正在发生什么是有区别的。在数据治理的操作方面,正在发生的是一个非常难以解决的问题。如果面对一家企业的【数字孪生应用】,那就是‘正在发生的事情’数据治理理念的未来。”
尽管数字孪生还没有普及到整个数据领域,但是数据治理的许多基本方面——当通过实时访问控制和情景适应性的镜头应用时——可以模拟它们详细描述当前发生的事情的能力。
这只是一个从知识到控制和利用知识以实现治理目标的逻辑过程。
管理元数据
元数据管理很可能一直是数据治理的核心。组织可以从许多旨在优化这一任务的工具中进行选择。目前有大量的数据目录、主数据管理工具,以及Privacera首席执行官所称的“敏感数据目录”,可以通过各种元数据模型实现数据发现和分类的自动化。根据Hodgson的说法,有六种基本形式的元数据与数据治理的突出领域接壤,包括:
数据表达:该维度涉及“数据如何表达;什么数据类型;什么数据表达式;它是可以量化的吗?它是否有测量单位等等。
数据质量:高质量的数据对于信任数据和鼓励业务采用这些数据是不可或缺的。
用法:该区域处理数据的重要性、数据安全性和数据机密性。
数据管理:数据管理需要“所有权、指标和可访问性”。
法规遵从性:关于法规遵从性的元数据通常为策略和标准提供信息。
数据来源:数据沿袭或数据来源表示数据的起源和企业旅程。
根据Gartner的说法,元数据已经从被动变为主动,为实时用例提供信息,比如数据结构的数据集成。因此,所描述的元数据(以及伴随的数据治理结构)关键的方面是,具备表达事物之间关系的共同需求,清楚地了解这些数据治理领域中的元素如何相互关联,使组织能够调整它们以满足新的需求、数据源或用例。
数据模型
Hodgson所说的“元关系”是动态修改数据治理组件以满足新兴环境和业务条件的必要条件。概念性数据模型包括这些关系、它们的定义和消除它们歧义的语义(如果必要的话)——在部门或应用程序之间。这样的数据模型有助于与数据治理相关的一切,从呈现数据访问控制到促进生命周期管理必需品(如保留策略)。定义良好的概念数据模型可能是调整数据治理协议以满足不断出现的情况的起点。为此,这样的模型由特定的领域(模型是关于什么的)和规程组成。
其他维度包括企业对主题的观点、模型的专一程度、它的方面和时间信息。用必需的数据标识符、术语系统和模式指定模型的这些元素,可以很容易地将它们组合起来进行部门间的分析,在源系统、客户360、数据隐私需求等之间进行分析。TopQuadrant首席执行官尼米特?梅塔阐述了一个用例,在这个用例中,机构致力于野火预防,每个机构都有自己的术语。当面对那么多不同的宗教,怎么让他们都说同一种语言?图表允许你以一种标准驱动的方式,创建一个元模型,并使那些联邦语言学保持它们的位置。”
分布式数据管理
数据环境的分布及其对数据管理的影响将继续是明年数据治理领域的首要挑战。除了云计算和多云计算的日益流行之外,数据结构和数据网格等体系结构也加剧了这个问题。当然,它影响数据治理的所有方面,从生命周期管理到元数据管理。然而,正如Ganesan正确指出的那样,“这就是数据治理的作用所在:在公司内部。他们是如何看待和对待这些数据的?”为此,对专门用于扩展交付受治理数据访问能力的解决方案的投资——同时减少跨源的策略实施措施的数量,不太可能在新的一年里减少。
Ganesan指出,实现这些成果的方式多种多样,包括“提供一个可以管理所有平台的窗口”。策略减少是通过基于属性的访问控制(ABAC)及其相应的基于目的的访问控制(PBAC)实现的,两者对于维护流畅、响应性强的数据治理都有影响。根据Immuta首席技术官Steve Touw的说法,“基于数据标签标记数据和推送策略并不是ABAC。这是ABAC的一个组成部分。ABAC的真正威力在于使访问成为动态的运行时决策,而不是预先计算的、基于角色的决策。”PBAC利用这一优势,仅为特定目的(例如处理某个报告)授予访问权。
数据隐私和法规遵从性
ABAC和PBAC都是实现法规合规性的基础,特别是在横向数据隐私要求方面,并向监管机构展示这些事实。“你不仅得到了控制和屏蔽,你还得到了法律监督,让你的用户同意他们只会为特定目的使用这些东西,并在他们访问数据时按照该目的行事,”Steve Touw表示。
数据来源支持这个用例和其他此类用例的法规遵从性演示,它也普遍适用于数据治理的许多方面。生成日志文件,记录谁访问了哪些数据、何时访问了哪些数据、使用PBAC和其他方法访问了哪些数据、目的是什么。也许,应用于法规遵从性和治理的其他维度的数据谱系的更广泛的分支与它所交付的上下文有关——这有助于告知修改治理概念以满足不断变化的环境的能力。
数据的质量
数据领域的分布越来越广,加上可用的大量非结构化数据的种类越来越多,使得数据质量成为良好治理数据的先决条件。Ganesan表示:治理部分围绕元数据、质量和访问部分,以减少用户查找和使用数据的阻力,尽管数据质量有很多指标,但最核心的指标不可避免地与“完整性、正确性、清晰度、一致性等诸如此类的指标”有关。
与统计和非统计人工智能用于发现和分类数据的大量自动化类似,也有这样的机制来帮助确定数据质量存在缺陷的领域,并对其进行纠正。模糊匹配和精确匹配也可以提供这些好处。因此,这种现代数据质量机制“在我们可以建议映射到词汇表的地方使用机器学习,然后以词汇表的形式,例如,可以表达一致性的规则,”霍奇森说。
态势感知,实时响应
正如Hodgson之前指出的,理想的数据治理是业务及其数据流程的实时模型,以确保后者的长期价值,同时丰富前者。这种范式隐含着修改数据模型、权限、术语甚至治理策略的能力(如果需要的话),以一种内聚的方式提供业务价值,同时降低风险。动态访问控制功能、活动元数据和流动的分布式数据管理可以促进这些收获。
实现这种可变形式的数据治理比人们想象的要快得多。