R语言数据挖掘概述（一）

1.数据分析与挖掘的必要性数据量的规模由传统的GB,TB量级，变为PB,EB,ZB级别，大数据的"4V"特点即大量（volume）、高速（velocity）、多样（variety）、价值（value). 因此一般的大数据分析需要四个核心要素：基于云计算的基础设施，分布式的大数据体系，数据分析方法与算法，行业应用知识与经验。人类的数据生产能力达到空前，从数据挖掘方法入手，无疑是最佳选择。2...

wamg潇潇

2932人浏览 · 2019-04-11 22:22:51

wamg潇潇 · 2019-04-11 22:22:51 发布

1.数据分析与挖掘的必要性

数据量的规模由传统的GB,TB量级，变为PB,EB,ZB级别，大数据的"4V"特点即大量（volume）、高速（velocity）、多样（variety）、价值（value). 因此一般的大数据分析需要四个核心要素：基于云计算的基础设施，分布式的大数据体系，数据分析方法与算法，行业应用知识与经验。人类的数据生产能力达到空前，从数据挖掘方法入手，无疑是最佳选择。

2. R语言是目前应用最为广泛的数据挖掘与分析工具

共享性，分析方法丰富，操作简便性和灵活性，成长性

3. 什么是数据挖掘

最初被称为数据库中的知识发现（Knowledge Discovery in Database,KDD）,目前对数据挖掘的理解已达成如下共识：

首先，数据挖掘是一个利用各种方法，从海量的有噪声的各类数据中，提取潜在的、可理解的、有价值的信息过程。

其次，数据挖掘是一项涉及多任务、多学科的庞大的系统工程，涉及数据源的建立和管理、从数据源提取数据、数据预处理、数据可视化、建立模型和评价以及应用模型评估等诸多环节。

数据挖掘的诸多环节本质上可归纳为两个具有内在联系的阶段：数据的存储管理阶段和数据的分析建模阶段，涉及计算机科学和统计学等众多交叉学科领域。数据挖掘提取的信息主要有两大类：用于数据预测的信息和用于揭示数据内在结构的信息。

当前数据挖掘的对象是大数据系统，其重点和难点有，如何高效合理地存储数据；如何有效地保障数据的一致性等；数据挖掘的研究领域还涉及数据库和数据仓库计算、分布式计算和并行处理等。

4.数据挖掘的结果

4.1. 数据挖掘结果的一般呈现方式主要有三类：数学模型，推理规则，图形。

数学模型：用函数表达式来反映变量之间的数量关系。

推理规则：用逻辑表达式来反映变量之间的取值规律。由条件（IF）和结论（THEN）两部分组成；条件是变量、变量值以及关系运算符（大于，小于，等于...）和逻辑运算符（并且，和，或者）组成的式子。结论是目标变量取值。

图形：可以直观地展示变量间相关性的特征、数据的分布特征、图示推理规则或其它复杂模型。

4.2. 数据挖掘结果的基本特征

潜在性：发现大量数据中隐含的变量相关性、数据内在结构特征等，是数据挖掘的重要任务和核心成果。

可理解性：分析结论要具有符合研究问题的可解释性。事实上，数据挖掘揭示出的不可理解的相关性可能是一种虚假相关。

有价值性：数据挖掘结果要对决策具有指导意义。海量数据的某种无意义的随机性，会导致机械式挖掘得到的信息不能真实地反映数据分布和变量间关系，因此要借助统计学来区分“表象”与“本质”。通常以分析数据为随机样本，采用统计推断式的假设检验。这种思路用于大数据也会出现一些主要问题。比如，大数据的海量特性限制了这种分析思路的可行性；数据挖掘的研究对象往往是总体而非随机样本；某些数据挖掘问题（eg异常检测）只能基于总体而不能基于样本来研究。

5.数据挖掘能做什么

数据挖掘可以解决四大方面的问题：

5.1. 数据预测：基于对历史数据的分析，预测新数据的特征，或是预测数据的未来发展趋势等【数据分类、回归分析】问题。

数据预测的两大类问题：针对数据所属类别的预测叫分类问题，分类的目标是找到将两个或多个类别区分开的数学模型或推理规则，在几何上对应一条或若干条直线，高维空间中有时也把用于分割这些类别的边界称为平面或超平面；

针对数值预测的叫回归分析问题；回归分析的目标是找到反映数值型变量间关系的数学模型（因果关系)，在几何上对应一条直线（或平面），称为回归直线（或回归平面）。

5.2. 发现数据的内在结构：发现数据集中可能包含着的若干个小的数据子集，这个过程又叫聚类分析，数据子集又叫“子类”、“小类”、“簇"；聚类分析要求每个类内成员的总体特征尽可能相似（差异小），类间的总体特征差异明显。统计学中常根据距离或概率将数据划分到不同的小类中去。可用统计机器学习方法快速找出这些小类；评价聚类分析结果的合理性，就是评估这些找到的小类是否恰当，包括类簇的个数是否合理，类内特征是否相似，类间差异是否明显等方面。

5.3. 发现关联性：找到变量取值的内在规律性是关键。通过计算条件概率来发现关联性；依据概率可以发现频繁项集，也就是同时且频繁出现的集合。在研究变量间关联性时，忽略时间上的先后差异的称为简单关联性，而涉及时间因素的称为时序关联性。发现关联性的本质是寻找相关关系而非因果关系；例如分析购物篮时，可用节点表示不同商品，节点之间的连线称为节点连接，节点连线的粗细（或不同的赋值）来反映不同商品间关联性的强弱，这个数值又叫连接权重；不同的节点及连线构成了一个网状图，因此关联性研究可以拓展到网络分析中。

5.4. 模式诊断：找到数据集中的模式。模式（pattern）是一个数据集合，通常具有局部的、非随机的非常规的特殊结构或相关性；与统计学中的异常点（孤立点、离群点 ) 的异同：都是数量较少、均表现出严重偏离数据全体的特征。但离群点通常由随机因素所致，模式具有非随机性，它有潜在的形成机制。找到离群点是为了将其剔除，以消除对数据分析的影响；而模式在多数情况下是人们关注的焦点，不能将其剔除。模式诊断可用于设备故障诊断、计算机网络入侵、恶意欺诈的检测防范等。

6. 数据挖掘方法的特点

结合统计方法和机器学习方法来进行大数据分析，解决如下三方面的问题：

6.1 对目标契合度不高的数据，怎样的建模策略能够更好地迎合分析的需要

指的是数据收集与分析目标的契合度。

6.2 对于海量、高维数据，怎样的建模策略能够更好地揭示数据特征，提高分析效率

数据容量通常是指数据集中的数据对象（也称观测、实例、样本）个数，高维会引发“维灾难”，并且高维数据难以可视化；因此有必要找出重要的维度，进行特征选择来有效降低数据维度。可视化能揭示数据特征。由于数据容量大，数据挖掘通常结合统计建模和机器学习，将数据分析过程视为一个"数据驱动”式的探索过程；而传统统计学假定的数学模型是对数据整体的抽象概括，它要求严谨准确。

6.3 对于复杂类型和关系数据，怎样的建模策略能够清晰地揭示数据的特征