机器学习-指南

发布者:赵海跃发布时间:2023-09-07浏览次数:63

机器学习指南

机器学习概念

  • Artificial Intelligence (AI): enable the machine to think

  • Machine Learning (ML): statistical tool to explore and analyze the data

    • Supervised learning

      • Data with label, “know output”

    • Unsupervised learning

      • Data without label, “don’t know output”

      • Handle clustering issues

    • Reinforcement learning (semi-supervised learning)

      • Some label and some not label

      • The machine needs to “learn”

  • Deep Learning (DL): mimic human brain

    • Multi neural network architecture

    • ANN (for number)

    • CNN (for image): TL as advanced

    • RNN (time series)

  • Data Science (DS): statistic, probability, linear algebra, etc.

数学需求

  • 高等数

    • 导数及偏导数,对应机器学习中的梯度,机器学习中学习的参数需要通过梯度下降进行更新;

    • 复合函数的链式法则,目的也是为了求出梯度更新参数,但因为深度学习网络有多层,所以模型的预测函数是个复合函数,我们需要通过链式法则从后往前求出每层参数的梯度,进而更新每层里的参数,这也就是大名鼎鼎的“反向传播法”;

    • 同时可以去了解下数学中的最优化问题,大概就是目标函数在什么条件下能够取到最值的问题,因为机器学习的问题到最后都是要转化为一个损失函数最优化的问题。

  • 线性代

    • 标量、向量、矩阵及张量的定义及运算,在机器的眼里,万世间物即可为矩阵,机器学习的过程其实也就是矩阵计算的过程。

    • 范数,对应机器学习中正则项,正则项通常会加在已有的损失函数上用来减少训练的过拟合问题;

    • 常见的距离计算方式:欧式距离、曼哈顿距离、余弦距离等,数据样本可以表示为其特征空间里的点,而距离可以用来衡量他们的相似度。

  • 概率

    • 条件概率、贝叶斯,基于概率论的分类方法经常会用到;

    • 期望与方差,机器学习里一般都会对数据进行normalized的处理,这个时候很可能会用到期望和方差;

    • 协方差,能够表征两个变量的相关性,在PCA降维算法中有用到,变量越相关,我们越可能对他们进行降维处理;

    • 常见分布:0-1分布、二项分布、高斯分布等,高斯分布很重要,数据normalized跟它有关,参数的初始化特跟它有关;

    • 最大似然估计,在推导逻辑回归的损失函数时会用到。

  • 信息

    • 了解下交叉熵的概念即可,大概知道这东西跟分类问题的损失函数有关

核心算法

  • 吴恩达(Andrew Ng)斯坦福公开课《Machine Learning

  • 李宏毅《一天搞懂深度学习心得

    • 《深度学习介绍-李宏毅

    • 《李宏毅机器学习2017

    • 《李宏毅深度学习2017

  • 林轩

  • DeepLearning.TV

  • 李飞飞《Stanford CS231N 2017

  • Peter Harrington《机器学习实战

  • Ian GoodfellowDeep Learning

  • 《不用博士学位玩转Tensorflow深度学习

  • 《三天速成Tensorflow PPT-香港科技大学

  • 莫烦《Tensorflow教程

  • 《 Deep Learning With Tensorflow

  • Keras快速搭建神经网络

  • 《在AWS上配置深度学习主机

Python代码

  • Anaconda-Python3

  • 导图框架

    • https://zhuanlan.zhihu.com/p/36281900

  • 书籍

    • 《笨办法学Python

    • 《廖雪峰Python程》

    • Python100

    • 《机器学习numpypandas基础

    • 《十分钟搞定pandas

    • 《机器学习numpypandas基础

    • matplotlib绘图可视化知识点整理

    • 《从零开始写Python爬虫》

    • 《1.1 requests库的安装与使用》

    • 《1.2 BS4库的安装与使用》

    • 《1.5爬虫实践: 获取百度贴吧内容》

    • 《1.7爬虫实践: 排行榜小说批量下载》

    • 《1.8爬虫实践: 电影排行榜和图片批量下载》

数据应用练习

  • 吴恩达课程

  • https://zhuanlan.zhihu.com/p/87930731

金融机器学习书籍

  • 马科斯·洛佩兹《金融机器学习》

  • Python金融大数据分

Reference

https://36kr.com/p/1722113474561

https://zhuanlan.zhihu.com/p/168167555






(0) (0)