数据模型与规范设计
企业针对数据资产的开发不仅包括数据的采集、存储、加工,也包括分析、建模、数字产品;而数据资产开发的管理目标则是包含了对这些方面的接入、协同、管控的全流程管理。数据开发团队需要掌握对多模数据源的对接,脚本开发、测试执行、作业调度、ETL配置等基础能力,可结合业务语义分析提供常用语法、常用关联等智能推荐,结合标签画像、指标体系等能力,快速打通数据开发领域的各种问题。
团队能力建设相对比较复杂,在技术层面上团队需要掌握数据资产盘点技术、数据质量管理能力、数据安全分类分级与细粒度安全管理等技术,还需要拓宽视野,从整体的角度考量如何从数据推动业务效率的提升。这部分内容比较抽象,我们将其抽象为全局、务实、安全、资产四个关键点:
如何能识别出企业的全量数据资产如何能准确且快速的提升当前的数据质量如何能跨业务跨领域的打通企业数据,消除“数据孤岛”当前数据的流转过程是否符合国家相关的法律法规的要求企业怎样才能逐步的挖掘出数据资产的价值并量化它相关人才的培养,管理手段的升级,思维模式的创新
—小结—
然而方法总是比困难多,相关问题的解决并非一蹴而就,需要一套完整的技术平台和管理体系,并落实到具体的业务单位,有计划、分步骤、可量化的持续推进各项服务活动的开展与落地。在这个阶段,企业数据管理者需要完成两个方面的工作,一个是平台功能的建设,一个是团队能力的建设。
全局观:以通过数据来扩大企业业务视野和管理视野为目标,以盘点和拉通企业各领域数据为度量,促进企业全面的识别和展现出所拥有的数据资源量,数据资产量。务实观:以提升数据质量、满足数据需求为目标,从组织、技术、管理、人员等多方面多角度、多因素入手深挖数据质量问题根因,长效提升数据质量。安全观:以在满足日益完善的法律法规要求为前提,保证数据资产安全,保护隐私信息不泄露。资产观:以做好资源配置,控制好成本和收益为目标,对数据收集、存储、整合、应用、共享、开放,再到价值的评估量化全链路建立体系化的资产管理保障。
除了功能性要求以外,数据治理类软件本身也是关键的基础软件,企业对其自然也有体系化的架构要求,主要包括如下几点:
对于大多数企业,这一系列挑战在很长一段时间里,都深深困扰着数据管理人员,尤其是引领企业数字化转型的管理层。
企业完成建设数据存储和算力基础平台后,再将数据资源归集,下一步就需要将数据资源转化为数据资产。有业务语义和业务价值的数据资源才是数据资产,因此企业数据管理者需要将数据与业务衔接起来,梳理出哪些数据可以服务哪些业务,同时建立好数据衔接通道并做好数据安全管理。这个阶段的主要目标是提供给业务方可以直接使用的数据资产。
数据质量提升是一个工程量非常庞杂的工作,平台工具需要能够提高这个工作的自动化程度从而提升效率。平台工具需要提供的能力包括梳理质量模板、编写质量规则、查看质量报告、处理质量问题等。一些自动化和智能化的功能是非常关键的增值技术能力,通过一些基于数据相似度的推荐算法,让机器自动的给数据表关联质量规则和落实数据标准工作,可以将人力从重复的工作中解放出来,从而加速完善数据质量的进程。
元数据管理与数据资源登记
—平台功能建设—
上是一个整体的,从数据开发到资产价值的总体流程的概要示意,不同企业的规划和落地,依照企业的实际情况会存在一定的差异,不过总体过程大同小异,在资产化阶段,对于平台工具的功能要求,我们将其总结为以下几点:
自动化的数据质量提升
数据资产管控能力域
数据资产开发能力域
稳定性与可靠性:相关软件会产生大量的无人驻守的计算任务,因此在架构上需要保证相关数据计算任务的稳定性和可靠性。用户自服务能力:数据治理软件和资产门户等相关软件是需要开放给所有数据管理人员、安全管理人员以及各个业务部门内部的数据人员来使用的,因此需要提供比较强的自服务能力,这包括独立的工作空间、体系化的权限隔离机制,以及较低的开发启动成本。譬如企业数据管理部门统一制定数据标准,可以分发给各个业务组织或部门,由各个部门再结合自身的业务数据做进一步的完善,而无需从0开始,中间过程可以通过一些关键的数据管理流程来控制。非结构化数据的资产化:数据资产平台需要对非结构化数据提供管理能力,或者提供插件化的方式,让各个业务团队可以基于一定的方式来做定制化的开发,最终能够有效的管理起业务积累的这部分数据资产。数据安全:数据的开放在数据流通过程中,也带来了安全风险,按照法律法规的要求企业必须完善数据内容安全和流通安全,而不仅仅是软件层面的认证、权限和审计。数据安全管理平台需要能够提供基于数据内容的分类分级,生成细粒度的安全策略,支持动态脱敏、静态脱敏、数据水印等能力,可以让安全管理人员灵活的配置,从而落实相关合规性要求。国产软硬件生态支持:数据资产平台软件需要能够开发和管理国产数据库内的资产,此外平台自身也需要满足国产化的相关要求。
—团队能力建设—
具体到细分的技术能力上,我们将这部分能力分为四个域,包括开发能力、管控能力、服务能力和运营能力,我们逐个对其展开阐述:
数据资产服务能力域
产品生产出来了,并且成为了质量过硬的好产品,这时最需要的是将产品销售出去,投入到交换、使用的环节中,而数据资产服务能力域就是对数据的交换、共享、应用输出等服务能力的综合管理,需要将标签画像、指标体系、自助分析、建模预测等业务模式,通过人-机的联机查询访问、机-机的系统调用接口、平台内部实验区数据验证等不同接口形式注册为服务,以统一管理的方式对服务进行注册、发布、监控、停用的管理,可利用知识谱等形式对使用情况、业务模型进行知识归纳和共享,并将安全等级定义落实到数据的共享管理中,确保权限的正确分配、完成确权和审计要求。平台需要提供数据商城模块实现数据集的注册、发布,并实现API访问、下载等接口的开放。数据的共享流转流程成熟后,再对服务层进一步优化知识共享、平台衍化、数据重组等。
我们知道将生产资料转化为产品时,最重要的就是品质保障,而数据管控就是对数据产品的各个治理领域的功能组合,需要为数据订立架构与规范,建立数据质量的管理机制持续监管及解决质量问题,同时树立起数据共享与保护的意识。企业数据管理团队需要构建数据标准模块以定义规范,通过落标检查来监督规范的执行;通过数据质量模块来定义质量检查规则并执行,统计和分析质量结果,提出问题并处置解决;通过数据安全的分类分级对数据进行安全级别定义,构筑数据保护的基础;通过数据模型将标准落实到数据产品的设计工艺上;以元数据模块进行技术元数据的采集、数据加工血缘路径的采集,实现差异性分析、血缘分析、特征分析等;通过数据模型管理软件来统一管理企业内部的各种业务数据模型定义和落实模型校验,完善内部的数据管理要求。
—数据资产化的挑战—
平台建设的重点主要包括能帮助企业做数据资源的治理和业务化转换的数据开发与治理平台,以及随着数据安全类三法强制推行后要落地的数据安全管理平台。
企业在数据资产化的阶段会遇到各种各样的挑战,尤其是在起步阶段,经常会遇以下几个问题:
数据资产管理与服务能力
数据资产运营能力域
文章为作者独立观点,不代表股票交易接口观点