数据安全分类分级剖析

数据分类分级对于数据的安全管理至关重要，安全分类分级是一个“硬核课题”，从数据治理开始，除了标准化和价值应用，重要的课题就是质量+安全。安全是底线，是价值应用的前提和基础。数据分类可以为数据资产结构化管理、UEBA（用户及实体行为分析）、个人信息画像等数据治理工作提供有效支撑；数据分级通过对不同级别的数据设置相应访问权限、加密规则、脱敏规则等，可大大提升数据安全管控效率，是数据安全精细化管理的重要

IT小神

12575人浏览 · 2021-09-15 00:07:09

IT小神 · 2021-09-15 00:07:09 发布

概述

**本人博客网站 **IT小神 www.itxiaoshen.com

数据分类分级管理不仅是加强数据交换共享、提升数据资源价值的前提条件，也是数据安全保护场景下的必要条件。《数据安全法》规定国家建立数据分类分级保护制度，对数据实行分类分级保护，数据分类分级工作是基础和核心，数据分类分级是数据使用管理和安全防护的基础，为数据尤其是重要数据制定分类分级制度并依规管理，是实现数据安全目标的重要工作；数据分类分级不仅是数据安全治理的第一步，也是当前数据安全治理的痛点和难点，数据分类分级是非常有挑战性的工作。总结数据分类分级的基本流程包括4个重要的方面

该流程具有科学的方法论指导作用，但其问题在于缺乏实践过程中的具体方法。数据分类分级的行业差异性很大，不同行业数据具有不同的属性和业务处理目标，在开展数据分类分级时，需要深入理解行业业务需求，研究设计具有针对性的方法和工具。

政务数据分类分级的痛点问题和挑战

数据分类面临的痛点问题和挑战

如何选择分类维度的问题

对于数据进行分类可以有很多维度，包括基于数据形式和数据内容等。基于数据形式可以按照数据的存储方式、数据更新频率、数据所处地理位置、数据量等进行分类；数据内容可以根据数据所涉及的主体、业务维度等多个维度进行分类。

不同维度各有价值，如何选择一个维度对数据进行分类需要考虑数据分类的目的，但很多时候大家都希望通过一个分类维度实现多个目标，或者将两个分类维度混合进行分类。分类维度的不清晰会导致后续基于分类的很多操作都存在问题

单一分类维度下的类别划分问题

例如，基于内容进行分类的维度，面临数据可能分类不全、类别不清晰的问题。主要原因是大范围内的内容分类是一个很复杂的问题，甚至可能涉及知识分类的问题，这在目前还是一个较为难以解决的问题。类别划分有问题会导致有些数据无法分到一个分类下，而有些数据又同属于两个分类

数据分级面临的痛点问题和挑战

定性到定量的问题

针对信息资源的分级，需要根据信息内容确定。目前尚无科学的方法和范式支撑构建信息内容的数学模型，因此很难准确定量地进行数据内容描述。

举个例子，我国目前已有一些针对政务信息资源的安全级别描述，其中有按损害影响程度进行的数据定级，但没有关于影响程度定量的描述，所谓针对公民的损害，是造成财产损失还是身体伤害？造成什么量级的财产损失？这样的描述难以在实际操作过程中给定级的人员准确的依据去判断政务信息资源属于哪一个级别

分级的级数问题

在政府部门进行政务信息资源分级时，需要找到一个合适的级数，使得在使用过程中达到效率和安全管控的平衡。过多的分级会给实际使用带来困难，太少的分级又会使得管控难以准确地约束数据。

目前针对不涉密的政务信息资源主要分为非密和内部两级，但是在实际使用过程中这两个级别并不能满足对于数据处理的需求，并不是所有非密的数据都适合让公众知晓，也不是所有内部数据都只能政府部门使用，因此将不涉密的的政务信息资源只简单的分为两级是不合适的。

分级的粒度问题

在进行分级的时候，分级的粒度是影响分级效果的主要因素之一。以什么样的粒度进行分级才可以既达到分级防护的目的，同时不影响正常的业务仍是一个有待进一步研究明确的问题。

政府部门的信息资源涉及各行各业，数据存储的格式众多，有文件、表、行列、字段等不同的数据粒度。不同行业中影响信息资源级别的属性要素也不一，例如地理信息资源地图的比例尺和所包含的地图元素是影响信息资源的级别的关键因素。

分级的有效落实问题

有些地方政府专门成立了大数据管理部门，来规范政府部门对信息资源的共享使用，也出台了相关的数据共享条例、数据安全保障条例等，但是还缺乏完整的流程和环节来完成从数据梳理、数据分类分级到数据存储保护、数据共享使用。

现有的数据使用模式，是以部门为单位，各自负责自己所拥有的数据，因此相应的规章制度更多注重部门内部，缺乏跨部门的数据使用规范。目前相对成熟的跨部门的具体数据规范主要是公安部门的人口库信息，但是其他部门相对较弱。

数据的升降级方法问题

政务信息资源是动态变化的，因此数据会发生合并、摘抄等简单操作，也会进行分析融合等复杂操作。这些操作会对已经进行了分级的政务信息资源的级别产生变化。而由于政务信息资源众多，不同部门对信息资源的使用方式、需求粒度都不统一，信息资源的级别发生变化时，人工重新判定的标准难以统一，也无法完全以自动化的方式进行。

数据安全分类分级

基础理念

数据资产和元数据关联，是数据安全最终的落脚点；
数据定级，这个是数据安全定级的操作标准，从数据标准引申到定级标准，然后为后续的技术性措施提供指引；
安全策略，这个是数据分类分级的真正核心，就是当有了一套所谓的管理制度和规范后，具体如何衔接到纯粹的技术措施和方法，从制度到方法，中间需要一个“实施策略”。
- 这里的安全策略，是一个基于数据环境，同时主要从数据环境的变更作为“管控点”的策略。它的基本思路是：
- 数据是依托于环境进行采集、存储的，在企业的实际工作中，就静止数据而言，环境的安全策略已经基本覆盖了数据的安全策略，包括系统、网络、用户权限等。
- 只有在环境发生变更，就是数据出现了传输等过程，从一个环境变迁到另一个环境，这个时候，静止数据的环境安全策略无法覆盖，需要就环境变更产生的动态情况进行安全策略的制定，这就是数据的脱敏、加密等技术保护措施的实施动因

在现代企业中，静止数据的安全措施总体上是有一定基础的，相对于动态数据而言也是更加丰富和完整的。比如物理的机房准入，网络的访问控制，防火墙的管理，用户访问权限，数据生命周期的管理等等。薄弱点在于动态数据部分。比如，当一份生产数据要传输到第三方，这个时候如何处理？谁负责这个事情？具体要做什么处理？谁实施这个操作？在什么地方进行？这些内容，就容易出现空白。

所以，数据安全分类分级工作，要从企业实际情况出发，不是枉顾实际情况，单纯援引理论直接单搞一套重复建设，而是要和企业已有的安全基础设施、制度体系框架、组织结构和流程机制等结合，从痛点入手，查漏补缺，快速的补短板，形成一套更加完整的数据安全管控体系。

而这套体系如果仅仅停留在《办法》、《规范》、《指引》上，那还是不接地气，最终要平台化、系统化。通过数据资产盘点、数据标准制定、数据安全定级的索引，再通过数据溯源定位好数据主人，基本上可以在系统平台上解决“WHO”的问题和动员组织能力提供了一个抓手。

把做什么想明白，把谁来做想明白，把怎么做平台化

数据安全分类分级理解

数据分类

数据分类是指企业、组织的数据按照部门归属、业务属性、行业经验等维度对数据进行类别划分，是个系统的复杂工程。数据分类的目的是要便于数据的管理、利用。基本原则是：分类要合理，即在一个明确的业务目标下，确定逻辑清晰的分类维度，并确保数据有且只有一个分类类别。可以从三个维度进行分类

数据管理维度：根据数据的一些客观属性进行分类，便于数据管理机构对数据进行管理，便于数据管理系统的规划
数据应用维度：根据数据内容的固有属性进行分类，便于数据理解和应用
数据所涉及的对象维度：对数据内容的理解的维度，不过更偏向于支撑便于数据权属分析和数据安全管理

数据分级

数据分级则是从数据安全、隐私保护和合规的角度对数据的敏感程度进行等级划分。整体来看，建议在数据分类的基础上，根据某类数据的安全属性(如完整性、保密性、可用性)，集合数据在经济社会发展中的重要程度，以及一旦遭到篡改、破坏、泄露或者非法获取、非法利用时，对国家安全、公共利益或者公民、组织合法权益造成的危害程度，结合自身组织情况将数据分为4—5个安全保护级别。

针对定性到定量的问题，需要按照行业需求，结合科学的方法，进行数据信息模型的研究。在实际工作中，可先行结合业务经验进行总结和实践尝试；
针对数据分级级数如何确定的问题，根据Gartner报告表明，合理的数据分级最好在3-5级之间，太多会造成大量的管理负担，不利于正常的实施。在政务信息共享领域，可参考2017年发改委发布的《政务信息资源目录编制指南》文件中的数据分级的描述（见下表），并结合本部门业务实际情况进行研究，确定适合的分级级数；
针对分级粒度的问题，并无标准化的粒度划分方法，实际工作中又可从3个方面进行评估确定：
- 首先，需要考虑数据会用来干什么，例如查询统计、建模分析、数据密布型人工智能算法。进行查询统计的数据可以针对查询项和统计项进行细粒度的定级，其他项可以适当增大分级粒度；
- 其次，要考虑数据的处理方式，例如原始数据未改变、融合产生新数据、剪裁产生新数据、更新等。若原始数据未改变，信息资源分级的粒度可以适量大一些；若要融合产生新数据，分级粒度应当更细一些，避免数据融合分析过程中，暴露原本想隐藏的信息，导致原级别定义不准确；
- 第三，参考数据在信息系统中的存储和处理方式进行定级粒度划分。结构化和半结构化的信息资源在定级的时候，可以根据用途按照行列或者表级的粒度来定级。非结构化的信息资源定级的粒度建议以单个文件的粒度进行；
针对数据分级如何落实的问题，以政务信息共享为例，需要建立更为完善的数据分级流程，理清数据分级在政务信息共享工作中的位置。同时建立分级人员的培训制度、分级的责任制度等，使得对政务信息资源分级能够切实的实施；
针对数据的升降级方法问题，需要制定一系列数据分级的升降级原则，明确在什么情况下数据会发生生升降级变化，通过判断哪些要素进行升降级处理，并制定有效的自动化升降级信息资源预处理机制。

数据定级流程

数据安全定级过程包括数据资产梳理、数据安全定级准备、数据安全级别判定、数据安全级别审核及数据安全级别批准

数据定级流程基本步骤

数据资产梳理:
- 第一步:对数据进行盘点、梳理与分类，形成统一的数据资产清单，并进行数据安全定级合规性相关准备工作。
数据安全分级准备:
- 第二步:明确数据分级的颗粒度( 如库文件、表、字段等) ;
- 第三步:识别数据安全定级关键要素（影响对象、影响范围、影响程度）。
数据安全级别判定:
- 第四步:按照数据定级规则，结合国家及行业有关法律法规、部门规章，对数据安全等级进行初步判定;
- 第五步:综合考虑数据规模、数据聚合、数据时效性、数据形态(如是否经汇总、加工、统计、脱敏或匿名化处理等)等因素，对数据安全级别进行复核，调整形成数据安全级别评定结果及定级清单。
数据安全级别审核:
- 第六步:审核数据安全级别评定过程和结果，必要时重复第三步及其后工作，直至安全级别的划定与本单位数据安全保护目标相一致。
数据安全级别批准:
- 第七步:最终由数据定级工作领导组织对数据安全分级结果进行审议批准。

数据级别变更

数据级别变更应由数据的主管业务部门/属主部门或数据安全管理部门发起，并按照数据定级流程实施。在数据定级完成后出现下列情形时，应对相关数据的安全级别进行变更:

数据内容发生变化，导致原有数据的安全级别不适用变化后的数据;
数据内容未发生变化，但因数据时效性、数据规模、数据应用场景、数据加工处理方式等发生变化，导致原定的数据级别不再适用;
不同数据类型经汇聚融合形成新的数据类别，使得原有的数据级别不适用，应重新进行级别判定;
因国家或行业主管部门要求，导致原定的数据级别不再适用;
需要对数据级别进行变更的其它情形。

安全管控策略

根据数据分类分级结果，从管理、流程和技术等方面，制定基于数据安全视角的全生命周期数据安全管控策略，管理方面包括不限于规范管理决策职责、规范日常维护职责、规范岗位人员职责等；流程方面包括不限于制定数据安全管理整体机制流程安全管控策略、权限管理操作流程管控策略等；技术方面包括不限于制定基础架构的整体安全支撑技术、加密、脱敏、数据防泄漏等的管控策略。

国内企业数据分类分级产品

卫士通

卫士通牵头、参与了数据安全领域的多个国家及地方的标准研究和编制，包括《信息安全技术大数据安全管理指南》、《信息安全技术大数据服务安全能力要求》、《政务信息资源安全分级指南》、《雄安新区数据资源目录定级指南》、《雄安集团数据使用暂行办法》等。

在政务、金融、交通、智慧城市和大型央企等项目中，建设探索解决政务信息共享环节数据缺乏分类分级防护、数据权责难以界定以及数据流转监管困难等问题，针对政务数据资源管理缺乏分类分级方法、数据权责难以界定、数据流转监管困难、企业数据权限管理困难、金融数据分级标准落地等问题，卫士通总结形成了涵盖数据分类分级工作的数据安全解决方案，并在项目中进行了不同程度的落地实践。我们希望基于当前的研究和工作，能够帮助用户确定本单位的数据安全分类分级管理制度、标准，协助用户完成已有数据定权分级，提供基于数据分类分级后的安全防护方案设计和建设服务。

在实际项目中，卫士通也已积累沉淀形成了专业的数据分类分级产品，如下图所示

该产品通过自动化技术，将分类分级的专家经验和方法固化为规则模型和识别引擎，有效避免了采用全人工进行数据分类分级时存在的因人员经验背景知识不足导致的不确定性问题，并且降低了人力成本。

同时，在具体实施过程中根据不同场景，可与数据资产管理系统、传统数据库、大数据库等进行对接，还可根据不同行业选择不同的识别引擎，通过识别关键要素，结合分类分级的规则进行自动化分类分级

深信服

深信服智能数据分类分级平台引入了人工智能与机器学习算法，相较于传统数据分类分级做法，采用机器学习技术，大大提升了准确率，进一步提升了工作效率，减少了人力成本，在数据分类分级上作了一次有效实践，深信服智能数据分类分级平台工作机制如下：

分类分级策略定义
- 平台内置通用的分类分级策略，用户可根据国家与行业相关的数据分类分级标准和规范进行设置，其中数据分类策略用于定义数据的类型，数据分级策略用于定义数据的安全等级。
多维数据特征提取
- 平台能够对接各种类型的数据库，实现数据资产的自动发现和数据目录的生成，通过机器学习算法对数据进行多维度元数据特征向量自动提取，对相似字段的数据字段进行聚合归类。
智能分类分级推荐
- 平台接着会对相似数据类别与级别进行智能推荐，实现数据的智能分类分级，同时在用户分类分级过程中也会不断学习用户对数据的标注，提升智能推荐率，目前分类分级智能推荐率达到90%以上。

同时，分类分级结果以API的形式对外开放，业务系统和安全系统均可以调用API，以根据数据的分类分级结果进行精细化的数据管控与安全防护。

深信服以智能数据分类分级为核心的数据共享安全解决方案荣获贵州数博会 2021 年“数字政府方案案例创新奖”，在行业内已小有名气

安恒信息

自动化数据分类分级打标

标签化可以通过对数据打标签的方式降低数据安全管理的门槛，帮助单位进行数据的分类管理，分级防护。目前业内的专用工具可基于关联补齐后的数据，结合数据分类分级结果，在原数据基础上进行标记。

结构化数据的打标过程
- 工具自动方式
  - 工具自动打标签可以通过两种方式实现，一种是通过从数据库中提取元数据，进行自动分级分类，分级分类策略可配置。另一种为借助敏感标签能力，对元数据中的敏感程度和数据定级自动智能推荐，并快速完成数据分级管理。同时自动化工具能够支持数据分级支持对表、字段进行识别和分级标识，可自定义定级规则，并支持标记和变更数据敏感级别，通用的敏感级别包括公开、内部、敏感、机密等。
- 机器学习方式
  - 目前业内智能化打标一般指的是针对敏感数据进行打标。借助正则表达式、关键词、文档指纹、OCR、机器学习、自然语言处理等先进AI技术提取敏感数据特征，建立相应敏感识别规则，然后统一录入规则引擎。识别规则除机器学习获得以外，还包括系统内置规则及用户根据敏感特征自定义规则，可进行精确的、更多场景的敏感数据识别。识别后的数据与敏感标签库进行匹配，命中规则数据则会打上相应标签，根据标签则可以查看数据分级分类结果以及敏感数据分布情况。
非结构化数据的打标过程
- 针对文档、图像、视频等非结构化数据，通过标记文件头的方式进行打标。

基于数据分类分级的某市政务数据安全管控实践

政务数据由基础信息、行业、主题等各类别的结构化、非结构化数据的汇集而成。某市政数据为规范市政数局、区委办局两级数据管理的相关标准，规范政务数据安全管控的规则，基于政务数据分类分级管理方法论进行了数据安全管控。

工作流程

制度建设

由政务数据主管部门牵头，信息安全部门制定分类分级相关的制度规范，包括组织人员岗位职责规范、分类分级规范、分类分级矩阵（含定级方法、安全管控策略）等。

培训推广

由政务数据主管部门组织，信息安全部门为业务部门提供数据安全培训，除了针对分类分级制度规范解读、工具使用、安全管控实施细则等，培训内容还涵盖数据安全的常识、数据加密方式方法、数据脱敏方式方法、数据防泄漏等相关方面。通过开展不同角色的安全培训，覆盖政务管理培训和技术培训，将数据安全理论、数据安全最佳实践赋能XX市政务人员，达到培训提高数据安全意识、增强数据分类分级能力的目的。

实施落地

梳理数据现状。业务部门梳理本部门的全量数据范围，明确数据产生方式、数据结构化特征、数据更新频率、数据应用情况、数据质量情况、数据敏感程度等。
初步确定数据分类分级。依据GB/T 21063.6-2007政务信息资源目录体系第4部分：政务信息资源分类相关要求，业务部门结合自身业务，初步判定数据在确定各分类维度的分类类别和数据安全等级。
部门自主审核。业务部门应对数据在各维度的初步分类结果及数据分级结果进行部门内部自主审核，审核通过后提交至政务数据主管部门审查。
数据分类示例：

数据分类分级管控策略矩阵示例

检查评审

合规性审查。政务数据主管部门对本级及下级业务部门的数据分类和分级结果进行合规性审查。经政务数据主管部门合规性审查通过后，最终确定业务部门的数据在各维度分类下的结果和数据安全等级。

安全管控

确定最终数据分类分级。经政务数据主管部门合规性审查通过后，最终确定业务部门的数据分类分级结果。
数据安全分级管控。依据数据分级分类规范中的分级管控要求，落实具体管控措施。
变更维护。业务部门应定期组织对分类分级结果的合理性、有效性进行评估，当数据状态、服务范围等方面发生变化时，及时对分类分级结果进行调整，并记录变更过程。

安华金和

帮助组织梳理数据资产，制定数据分类分级的标准指南，制定切实可落地的数据安全策略，从而保障数据安全治理工作的顺利开展。

国外企业数据分类分级产品

Netwrix数据分类软件

Netwrix是美国一家提供信息安全与治理技术的网络安全公司，为用户提供以数据为中心的安全服务，被评为2020年Gartner文件分析软件市场指南“代表性供应商”、2020年Gartner Peer Insight文件分析软件“客户之选”

Netwrix数据分类平台概述

Netwrix数据分类平台通过使用数据发现和分类工具（Data Discovery and Classification Tool，简称DDC）实现分类功能。工具自动识别不同应用程序的结构化和非结构化数据，并结合预定义的分类法对文件进行分类，基于分类结果展示数据的分布状态统计。

无需部署客户端，使用基于WEB的管理控制台执行数据分类操作；通过HTTP协议和第三方应用API接口定位数据源；支持预定义的分类规则，实现对受GDPR、GLBA、HIPAA和其他监管标准保护数据的识别，也可以通过自定义分类规则查询识别其他数据；使用逻辑化和持续化的全文本索引模式，配合使用机器学习算法、语义分析自动查询文件内容；并为每种分类规则设置关联度得分，得分值可依据数据分类结果实时调整，用以调整文件匹配的范围；支持包括英语、德语、法语、汉语、日语、韩语等50余种语言的数据分类

Netwrix数据分类平台功能

Netwrix数据分类平台主要包括三个功能：数据采集、数据分类和数据分类结果的可视化呈现。上述功能通过基于WEB的管理控制台（Management Console）贯穿为一体，实现对分类过程的操作配置

数据采集
- 运行在数据分类服务器（Data Classification Server）上的数据分类采集服务（Data Classification Collector Service），采集数据源（Data Source）的文档后，将文档转换为纯文本，并形成文件元数据（Metadata）存储于数据分类SQL数据库（Data Classification SQL Database）。数据分类索引服务（Data Classification Index Service）基于收集的文档内容和元数据，创建全文本查询索引（Full-text Search Index），并将其存储至索引库（Data Classification Index）
- 数据源是需采集和分类的数据存储库。通过管理控制台的数据源内容配置功能，实现对需采集数据源的添加和管理，添加后可查看数据采集结果
- Netwrix支持分类的数据源有：Windows文件系统、Windows Server系列服务器、Linux文件系统（SMB/CIFS/NFS）、Office 365、数据库、Outlook（2010以上版本）、DropBox、Exchange服务器/邮箱、Google Drive、SharePoint等。在数据采集阶段，除了选择需采集的数据源类型，还需针对每种数据源配置相应的采集选项，以便于更精细化地定位
  - 数据库：Netwrix支持对SQL Server（2008以上版本）、Oracle、PostgreSQL、EMC等主流数据库内容的采集及分类。采集前需要先设置数据库访问用户名（如Windows服务或IIS程序池用户）或连接信息。数据库连接创建成功后，数据分类采集服务即可将采集到的内容智能映射为元数据。数据库内容采集的主要配置项如下：
    - 数据库类型。从SQLServer、Oracle、MySQL、PostgreSQL等选项中选取所需采集的数据库类型
    - 数据库服务器信息。设置采集目标数据库的服务器地址、具体数据库名称、登录用户名和身份认证方式
    - OCR处理模式。Netwrix可以通过OCR模式采集数据库文件中的图片内容，可从“禁用/默认路径/标准质量/增强质量”4种模式中选择
    - 数据库采集范围。设置需采集内容的数据库表、列的范围。
  - 文件系统：Netwrix支持对Windows文件系统和Linux文件系统的内容采集
    - 文件（夹）路径。设置需采集内容的文件（夹）路径
    - 文件夹级别。设置采集文件夹深度，可以选择是否包含子文件夹、是否采集所有子文件夹，以及子文件夹深度的范围（2-99级）
    - 文件夹访问信息。设置访问文件夹所需的系统帐户和密码，以及是否允许匿名访问文件目录
    - 重新索引周期。当源文件发生变更（增加/修改）后，Netwrix分类会定期更新索引，默认更新周期为7天
    - 文件类型。设置需采集的文件类型
    - 是否采集相同内容的副本文件，以及采集文件的优先级
  - 查看数据源采集结果
    - 数据采集流程自动对数据源进行采集、格式转换和创建索引的处理操作后，即可在管理控制台上查看数据源采集结果，包括：数据源类型、数据源文件位置、数据源采集状态、数据源索引创建状态、数据源采集文件数量及总大小
数据分类
- 数据分类服务（Data Classification Classifier Service）根据Netwrix预定义的第三方分类法（Taxonomies）和用户自定义的分类法，对文件内容匹配后分类，最终将分类结果存储于数据分类采集数据库（Data Classification Collector Database）中
- Netwrix数据分类工具提供预定义分类法，这些分类法包括数百个现成的分类规则。每种分类法包含一系列术语（term），术语又由一系列配置规则（configuration clue）定义。通过使用规则与文件内容进行匹配，最终定位源文件的所属分类
  - 分类法
    - Netwrix数据分类平台所提供的预定义分类法共8种，其中4种核心分类法覆盖了个人、金融、医疗等领域，包括：财务信息（Financial Records）、PII（Personal Identifiable Information，个人可识别信息）、第三方支付行业数据安全标准（Payment Card Industry Data Security Standard，PCI DSS）、患者健康信息（Patient Health Information，PHI），余下4种衍生于核心分类法，用于满足部分特定的合规性要求，称为衍生分类法，包括：GDPR（通用数据保护条例）、GDPR第九章中涉及的个人信息特殊类别、GLBA（金融现代法案）、HIPAA（医疗保险可携性和责任法案）。除了上述预定义分类法外，用户也可以添加自定义分类法
  - 分类规则
    - 分类规则通过复合词精确/模糊匹配、区分大小写、单词发音、正则表达式、语种类型匹配等11种匹配方式，查询文件内容后对其分类。此外，用户也可以添加自定义分类规则，添加时可设置规则的分数，代表其与分类特征的关联度。分数越高，则关联度越高，此项规则可用于对文件进行分类的概率越大。
    - 分类规则用于描述文档中发现的语言，使得文档归属于特定的主题。Netwrix提供预定义分类规则用于查询文件内容，这些规则涵盖了如英语、法语、德语、西班牙语等多语种的个人可识别信息（姓名、家庭住址等），以及英国、新加坡、南非等多个国家的识别码和登记码
  - 分类标签
    - Netwrix支持将分类标签写入被采集数据的属性中。具体操作方式为：在管理控制台上，将分类标签写入到指定数据源的属性中。分类标签可采用[分类名称|分类ID]的格式呈现
    - 例如：农业分类法中有农场（ID为11）和生产（ID为32）两个子分类。当同时包含农业和生产的文件分类完成后，分类标签即写入该文件的属性中，即文件属性增加项——属性名称农业，属性值[农业|11;生产|32]
分类结果展示
- 通过查看管理控制台上的数据源及分类规则详细信息、统计审计报告如文件分布地图等功能，展示数据分类结果
- 数据分类结束后，即可在管理控制台通过多种方式查看分类结果
  - 通过数据源查看
    - 选择某项数据源，即可查看已采集的数据信息，包括：文件名称、路径、分类状态、匹配的分类等内容。
    - 数据源查看文件分类结果
  - 通过规则查看
    - 选择分类法及其子节点中的术语，即可查看该术语对应的规则信息，包括：规则类型、规则名称、规则的分数。选择每种规则，即可查看与之匹配的文件数量
  - 文件分析报告（Data Analysis Report）
    - 可在Netwrix管理控制台上查看数据分析报告，对报告中的数据进行筛选和细化，以查询包含文件按照分类结果的分布状态。常用的报告有三种：文件分布地图（按分类和数据源分组统计），以及最近一周分类标签分配情况
    - 文件分布地图-按分类法分组统计
    - 文件分布地图-按数据源分组统计
    - 最近7天分类标签分配情况

小结

Netwrix作为全球500余家公司的数据安全治理供应商，实际数据分类、数据审计、数据安全功能远不止这些。Netwrix的数据分类工具作为数据安全的基础，提供了诸多参考方向，例如：无需单独部署客户端，使用一套服务器、一个WEB管理控制台的轻量化部署，即可完成数据分类全过程；可基于不同种类的分类数据源配置相应的分类配置项，为更精确的定位数据源提供支撑；使用预定义的数据合规分类法及其规则，满足国外对个人隐私数据识别的主流需求；使用多维度的象限统计图表，更直观地查看数据的分布情况。除此之外，Netwrix的数据审计和数据安全功能，能够提供以数据分类为基石、以用户实体行为分析UEBA（User and Entity Behavior Analytics）为核心的数据安全审计功能，最终形成数据防护流程体系。