[MachineLearning] 机器学习的概念

1. 机器学习的概念

1.1 Arthur Samuel的定义

​ 机器学习是在特定的编程环境下,给予机器学习能力的领域。

1.2 Tom Mitchell的定义

机器学习是指一个程序被认为能从经验 E 中学习,解决任务 T,达到性能度量值P,当且仅当,有了经验 E 后,经过 P 评判,程序在处理 T 时的性能有所提升。

1.3 例子

​ 例如下棋程序经过自己与自己的下棋练习,最后棋力大增。在这个例子中:

  • 经验E:程序上万次的自我练习的经验
    • 任务T:自己与自己下棋
    • 性能度量值P:在与一些新的对手比赛时,赢得比赛的概率

1.4 机器学习算法

  • 监督学习:教计算机如何去完成任务。
  • 无监督学习:让计算机自己学习完成任务。

2. 监督学习

2.1 概念

​ 百度百科:监督学习是从标记的训练数据来推断一个功能的机器学习任务。

​ 在监督学习中,每个实例都是由一个输入对象(通常为矢量)和一个期望的输出值(也称为监督信号)组成。监督学习算法是分析该训练数据,并产生一个推断的功能,其可以用于映射出新的实例。

通俗的理解就是,通过一组已知的数据(包括输入和输出)建模,当输入为x时,预测输出值y。这个数据集由“正确答案”构成,即该数据集中对于每个x都知道了对应的y的值

​ 根据训练数据的输出值是连续值还是离散值,监督学习问题又分为回归问题和分类问题。

2.2 回归问题

​ 回归问题指训练数据的输出值是连续值,可以预测一个连续的输出,一般建模函数以直线或曲线的方式表示。

​ 例子:通过一组房子面积(输入值)与房价(输出值)的数据,从而预测当房子面积为x值,房价y是多少。

2.3 分类问题

​ 分类问题指训练数据的输出值是离散值,预测一个离散的结果,一般建模函数以常量值或点来表示。

​ 分类问题中的输入值(即特征值)可以为多类,例如特征值是肿瘤大小和年龄,预测值为肿瘤的良恶性。

​ 例子:通过一组肿瘤大小与肿瘤是良性还是恶性的数据,从而预测当肿瘤大小为x时,肿瘤的性质y是良性还是恶性。

3. 无监督学习

3.1 概念

​ 百度百科:根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题。

​ 无监督学习即从没有标记的数据集中找出某种结构。

通俗的理解就是,在给定的一个数据集中,我们事先并不知道每个数据点是什么,如何处理这些数据点,即没有给算法对应的“正确答案”来回应数据集中的数据,而是由算法自行找出数据中的结构。

3.2 聚类算法

​ 聚类算法是无监督学习算法中的一种,即在整个数据集中把具有相似特征的东西聚成一类。

3.3 例子

  1. 谷歌新闻将网络上的新闻按照某种特征(一般是根据新闻主题)进行分组,组成有关联的新闻。

  2. 社交网络关系分析:根据社交网络的通信关系分出几个社交圈子。

    1. 市场分类:根据顾客数据集,自动地发现市场分类,并自动地把顾客划分到不同的细分市场中。

文章参考
吴恩达机器学习课程

0%