先介绍一下本人背景。|数据挖掘快速入门几大招

先介绍一下本人背景 。 本人美本top30统计学在读 , 即将进修哥伦比亚大学datascience硕士学位 。 在大二那年决定往人工智能领域发展 , 便开始了我的bigdata学习之旅 。
随着近几年人工智能行业的崛起 , 数据挖掘、编程等领域逐渐成为高薪行业的代名词 。 越来越多的人开始将目光投向大数据处理 。 在正式介绍学习方法等干货之前 , 我们需要先弄懂大数据和数据挖掘之间的关系 。 简单来说 , 大数据就是很多数据的集合 , 而数据挖掘datamining是与之平行的 , 利用人工智能、机器学习、统计学和数据库的交叉方法在相对大型的数据集中发现模式的计算过程 。 这一领域中有很多AI , deeplearning和机器学习的知识点融合在一起 , 学习难度也是较大 。
先介绍一下本人背景。|数据挖掘快速入门几大招
文章图片
先介绍一下本人背景。|数据挖掘快速入门几大招
文章图片
接下来我会分为基础、理论和实践三大板块为大家详细讲解数据挖掘的学习 , 相信大家通过我的介绍 , 一定能做到快速入门!
一、学前基础
如果不对其前提条件进行介绍的话 , 数据挖掘可能会显得很可怕 。 对于大部分人来说 , 虽然这个领域不需要你成为一个专业的数学家或资深的程序员来学习 , 不过对于这些领域的核心技能还是需要掌握的 。 关于学前的基础 , 大致可以分为三类:
线性代数和微积分→原始算法研究需要有线性代数和多变量微积分 , 尤其是导数 , 链式和乘积规则的基础 。 而针对于这部分 , 很多大学内的高数课程都有涉及到 。 作为英语中这些数字运算的定义和名称的一种补充 , 大家也可以去YouTube找很多国外大学的公开课 , 如Essenceoflinearalgebra-YouTube 。
统计学→了解统计学 , 特别是贝叶斯概率 , 对许多数据挖掘算法来说是必不可少的 。 不管是自然语言处理还是数据挖掘 , 最重要的事情就是把基础知识搞清楚 。 在这里 , 我所说的基础知识是指对于概率和线性代数等概念浅层的理解 。 概率论和统计学入门IntroductiontoProbability-TheScienceofUncertainty是我使用时觉得不错的一个资源 。
先介绍一下本人背景。|数据挖掘快速入门几大招
文章图片
Python→编程可以说是数据挖掘一大基础 , 没有编程就无法学习数据挖掘 。 如果说前面的数学知识是基础的话 , Python和R就像接下来战斗需要使用到的武器 。 我个人在学习的时候主要使用R语言 , 搭配Datacamp学起来真的很方便 。 针对刚入门的人 , 我会更推荐Python , 操作简单也好上手 。 关于编程部分 , 我建议大家花几个月时间同时学习Python代码和不同的数据挖掘概念 。 因为在后面你会发现很多情况下你会同时需要它们 。 而在学习Python代码的同时 , 大家可以练习使用一些数据科学工具 , 如Jupyter和Anaconda , 主要了解它们的用途以及为什么要使用它们 。 关于程序语言的学习 , 网上的资源有很多 , coursera和网易公开课都有很多可以选择 。
二、理论
在有了一定数学基础后 , 就可以开始阅读一些教材了 , 以便了解数据挖掘的理论知识 。 个人建议从一些关于人工智能的基本介绍性书籍开始 , 不要直接跳到花哨的书籍 。 很多人都推荐的西瓜书 , 在我看来其实不太适合入门学习 , 难度较大;而且像数据挖掘这样多元的 , 且实践大于理论的领域来说 , 单单从书本获得的理论知识 , 往往不能满足于实际生活的应用 。
要想成为数据科学的专家 , 往往需要尽可能多的去探索、研究其他领域的内容 , 建立一个完整的知识体系;因为很多内容都是相通的 , 有了一定知识储备后 , 对于日后的学习也能更好的理解 。 下面给大家推荐几套我学习时使用的教材: