相关推荐
数据科学导论--2.理论基础
2024-11-10 22:38

数据科学导论--2.理论基础

目录

2.1 数据科学的学科地位

2.2 统计学

  1.统计学是数据科学的主要理论基础之一。

  2.常用的统计学知识

  3.统计学与机器学习的区别与联系

  4.数据科学视角下的统计学

2.3 机器学习

  1.机器学习基本思路

  2.机器学习三要素

  3.KNN算法

  4.概念学习

  5.决策树学习

  6.人工神经网络学习

  7.贝叶斯学习

  8.遗传算法

  9.分析学习

  10.增强学习 

2.4 数据可视化


 学科地位,数据科学处于数学与统计知识、黑客精神与技能和领域实务知识三大领域的重叠之处

   数据科学并不是以一个特定理论为基础发展起来的,而是包括数学与统计学、计算机科学与技术、数据工程与知识工程、特定学科领域的理论在内的多个理论相互融合后形成的新兴学科

  1.统计学是数据科学的主要理论基础之一。

  2.常用的统计学知识

i.行为目的与思维方式,统计方法可以分为两大类描述统计和推断统计。

描述统计

采用图表或数学方法描述数据的统计特征,如分布状态、数值特征等。

集中趋势分析数值平均数、位置平均数等。

离中趋势分析极差、分位差、平均差、方差、标准差、离散系数等。

相关分析正相关、负相关、线性相关、线性无关等。

推断统计

常用的推断方法有参数估计和假设检验。

 ii.从方法论角度看,基于统计的数据分析方法又可分为基本分析法和元分析法

基本分析法

• 用于对“低层数据(零次或一次数据)”进行统计分析的基本统计分析方法。

元分析法

• 用于对“高层数据(二次或三次数据)”,尤其是对基本分析法得出的结果进行进一步分析的方法。

常用的元分析法加权平均法和优化方法

  3.统计学与机器学习的区别与联系

  1.从理论和方法角度看,统计学方法可以应用于机器学习,反之亦然。

  2.统计学需要事先对处理对象的概率分布做出假定而机器学习不用。

  3.二者之间存在着联系

  4.数据科学视角下的统计学

大数据思维在传统思维基础上的转换

  1.机器学习基本思路

现有的部分数据(称为训练集)为学习素材(输入),通过特定的学习方法(机器学习算法),让机器学习到(输出)能够处理更多或未来数据的新能力(称为目标函数)。

  2.机器学习三要素

•任务(T

•性能指标(P

•经验来源(E

  3.KNN算法

主要解决训练样本集中的每个样本的分类标签已知的条件下,如何为一个新增数据给出对应的分类标签。

关键在于“计算新增数据的特征与已有样本特征之间的相似度”。

  4.概念学习

本质:从有关某个布尔函数的输入输出训练样本中推算出该布尔函数。Find-S算法

  5.决策树学习

本质:一种逼近离散值目标函数的过程。(决策树代表一种分类过程。

核心算法:ID3算法。

  6.人工神经网络学习

人工神经元是人工神经网络的最基本的组成部分。

•  实现人工神经元的方法:感知器( Perceptron)、线性单元( Linear Unit)和 Sigmoid单元( Sigmoid Unit)等。

深度学习的关键在于计算观测数据的分层特征及其表示,其中高层特征或因子由底层得到

  7.贝叶斯学习

贝叶斯学习是一种以贝叶斯法则为基础,并通过概率手段学习的方法。

  8.遗传算法

主要研究的问题

从候选假设空间中搜索出最佳假设: “最佳假设”指“适应度( Fitness)”指标为最优的假设。

三个基本算子

选择、交叉、突变。

  9.分析学习

分析学习是相对于归纳学习的提法。特点:使用先验知识来分析或解释每个训练样本,以推理出样本的哪些特征与目标函数相关或不相关。

  10.增强学习 

主要研究:如何协助自治 Agent的学习活动,进而达到选择最优动作的目的。

重要地位主要表现

(1)视觉是人类获得信息的最主要途径。

(2)相对于统计分析,数据可视化的主要优势体现在两个方面

• 数据可视化处理可以洞察统计分析无法发现的结构和细节。

• 数据可视化处理结果的解读对用户知识水平的要求较低。

(3)可视化能够帮助人们提高理解与处理数据的效率

    以上就是本篇文章【数据科学导论--2.理论基础】的全部内容了,欢迎阅览 ! 文章地址:http://zleialh.xhstdz.com/quote/69661.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://zleialh.xhstdz.com/mobile/ , 查看更多   
发表评论
0评