百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

用Python进行机器学习(6)随机森林

wxin55 2025-05-08 21:45 1 浏览 0 评论

上一节我们讲到了决策树这个算法,但是一棵决策树可能会存在过拟合的现象,而且对数据微小的变化也比较敏感,为了解决这些问题,我们可以通过多棵树的方式,也就是今天要介绍的随机森林。

随机森林算法也就是Random Forest,它是一种集成学习算法,所谓集成学习,就是通过多个能力比较弱的机器学习模型的预测结果来得到一个更好的预测结果。随机森林的这一种方式叫做Bagging,它是Bootstrap Aggregate的简写,就是通过自助采样(bootstrap sampling)生成多个训练子集,分别训练后把结果聚合起来。

我们通过一个简单的例子来说一下为什么多个组合效果会好,比如我有四棵决策树,预测准确性都在90%左右,这四棵预测的结果为0、1、0、0,由于有三棵树的预测结果都是0,那么结果大概率就是0。注意这里有个前提,那就是每棵决策树的准确率都还可以,如果单棵树的准确率不足50%,那么还是要先去提升单棵树的准确性。

这里我们直接来看一个例子吧,代码如下:

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
from sklearn.tree import plot_tree, DecisionTreeClassifier
from matplotlib.colors import ListedColormap

# 生成自定义分类数据
X, y = make_classification(
    n_samples=300,  # 样本数量
    n_features=2,   # 特征数量
    n_informative=2,  # 有效特征数量
    n_redundant=0,  # 冗余特征数量
    n_clusters_per_class=1,  # 每个类别的簇数
    random_state=42,
    flip_y=0.1  # 类别标签翻转比例,增加噪声
)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 创建随机森林分类器
rf = RandomForestClassifier(n_estimators=50, random_state=42)
# 使用随机森林训练模型
rf.fit(X_train, y_train)
# 使用随机森林预测测试集
y_pred = rf.predict(X_test)
# 计算随机森林的准确率
rf_accuracy = accuracy_score(y_test, y_pred)
print(f"随机森林模型的准确率: {rf_accuracy:.2f}")

# 创建决策树分类器
clf = DecisionTreeClassifier(random_state=42)
# 使用决策树训练模型
clf.fit(X_train, y_train)
# 使用决策树预测测试集
y_pred = clf.predict(X_test)
# 计算决策树的准确率
clf_accuracy = accuracy_score(y_test, y_pred)
print(f"单棵决策树的准确率: {clf_accuracy:.2f}")

# 定义绘制决策边界的函数
def plot_decision_boundary(model, X, y, ax):
    h = 0.02  # 网格步长
    cmap_light = ListedColormap(['#FFAAAA', '#AAFFAA'])
    cmap_bold = ListedColormap(['#FF0000', '#00FF00'])

    x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                         np.arange(y_min, y_max, h))
    Z = model.predict(np.c_[xx.ravel(), yy.ravel()])

    Z = Z.reshape(xx.shape)
    ax.pcolormesh(xx, yy, Z, cmap=cmap_light)

    ax.scatter(X[:, 0], X[:, 1], c=y, cmap=cmap_bold, edgecolor='k', s=20)
    ax.set_xlim(xx.min(), xx.max())
    ax.set_ylim(yy.min(), yy.max())
    ax.set_title("Random Forest Decision Boundary")

# 创建画布
fig, axes = plt.subplots(1, 2, figsize=(15, 6))

# 绘制决策边界
plot_decision_boundary(rf, X, y, axes[0])

# 可视化随机森林中的第一棵树
plot_tree(rf.estimators_[0], 
          feature_names=['Feature 1', 'Feature 2'],  
          class_names=['Class 0', 'Class 1'],  
          filled=True,  
          rounded=True,
          ax=axes[1])  
axes[1].set_title("Random Forest First Decision Tree")

plt.tight_layout()
plt.show()

上面代码虽然比较多,但是做的内容其实就四件事:

第一步就是生成随机数据集并且切分为训练集和测试集,这个数据集有300个样本,共计包含2个特征,都是有效特征。

第二步就是通过随机森林分类器来进行训练并且进行预测,我们这次的随机森林包括了50棵决策树,也就是n_estimators=50这个参数的含义,然后打印出准确率。

第三步就是通过单棵决策树进行训练并且进行预测,然后打印出准确率。

第四步就是可视化,包括绘制了第一棵决策树和决策边界,这里由于决策树过多,就不一一列举了。

来看一下两者的准确率情况,如下所示:

可以看到,单棵决策树的准确率是88%,随机森林的准确性为92%,提升了4%的准确率,然后再看一下这个分类情况,如下:

对于这里的第一棵决策树,也是相对有点复杂的,这里也来个截图看一下,如下所示:

可以看到,相对于使用单棵决策树来说,我们只改动了少数几行代码,就可以提升准确率,不过需要注意的是,随机森林相对于单棵决策树来说,消耗的资源也会增加一些。

相关推荐

js获取上传文件类型以及大小的方法

前端web上传文件时,需要在上传之前判断一下文件的类型以及文件的大小,HTML为前端的标记语言是无法做到这一点,只能使用javascript动态脚本代码来实现。js获取上传文件大小的方法示例代码:&...

资源分享:移动设备类型判断JS(什么叫移动设备)

相信很多童鞋在实际开发中都会遇到需要判断设备类型来进行不同页面跳转处理,例如手机端访问移动页面,pc端访问pc页面亦或是ios和安卓扫描同一个二维码跳转至不同的下载页面。有这样一种做法当然了你可以使用...

JS学习笔记:三、数据类型(js六中数据类型)

上节知识点回顾:1.什么是变量2.变量的声明3.一次性声明多个变量并赋值4.变量名的规范5.变量的使用本讲内容:数据类型1.数据类型分类原始类型(基本类型)+引用类型原始类型:数字、字符串、布尔类...

JavaScript中常用数据类型,你知道几个?

本文首发自「慕课网」,想了解更多IT干货内容,程序员圈内热闻,欢迎关注!作者|慕课网精英讲师Lison这篇文章我们了解一下JavaScript中现有的八个数据类型,当然这并不是JavaScr...

JS自有类型系统的问题区分竟如此简单?

嗨,我是勾勾。今天想要和你分享的是如何区分强弱类型与JS自有类型系统的问题。类型系统的区分我们在区分不同编程语言时会有一些界定的标准。通常来讲,我们会从类型安全和类型检查上进行区分。类型安全强类型弱类...

抛弃 typeof,这样判断 JavaScript 类型更准确

JavaScript作为一门动态类型语言,类型判断一直是开发者面临的常见挑战。众所周知,typeof操作符存在诸多局限性,无法准确区分数组、对象、null等类型。那么,有没有更精确、更优雅的类型判断方...

有哪些好玩的 Python 代码?(python有什么好玩的项目)

Python是一门非常强大且灵活的编程语言,它不仅可以用来编写复杂的软件应用,还能用来创造一些有趣的小程序和游戏。以下是一些好玩的Python代码示例,涵盖了基础语法、字符串处理、图形绘制等多个...

Python统计快乐8的两码组合数据随机新的两码三码

我们利用Python统计出快乐8的两码组合数据,来生成新的快乐8选二,选三等组合fromcollectionsimportCounterimportrandom#输入新的快乐8两码统计...

10 个鲜为人知的 Python 可视化概念和技巧

数据可视化可视化是我们以各种可视化形式描述数据的操作,从图表、图形到信息图形。它是探索性数据分析(EDA)中最重要的部分之一,因为它使我们能够轻松掌握变量之间的关系以及对后期特征工程和建模有用的数...

用Python搞个随机简单的迷宫(python做迷宫)

为了增加一点趣味打发鼓噪的情绪,玩个简单的迷宫,方便以后搞游戏迷宫。堵路的就简单用#符号吧,如果弄成界面的话可以用图片来,比图墙的图片。因为是随机的,不是固定的一个迷宫,我们少不了random模块...

面试干货——某度Python面试题,转发收藏

目录1、Python是如何进行内存管理的?2、什么是lambda函数?它有什么好处?3、Python里面如何实现tuple和list的转换?4、请写出一段Python代码实现删除一个list里面的重复...

Python while循环深度解析:从基础到实战,一文全掌握!

一、循环的本质:重复执行的魔法在编程世界中,循环是实现自动化的核心工具。想象你需要重复做100次相同的事情,手动编写100次代码显然不现实。这时候,循环就像一位不知疲倦的助手,帮你完成重复性任务。Py...

如何在 Python 中随机排列列表元素

在本教程中,我们将学习在Python中如何打乱列表元素顺序,随机排列列表元素。如何随机排列列表是一项非常有用的技能。它在开发需要选择随机结果游戏中非常有用。它还适用于数据相关的工作中,可能需要提取...

Python快速入门教程7:循环语句(python循环语句有哪些)

一、循环语句简介循环语句用于重复执行一段代码块,直到满足特定条件为止。Python支持两种主要的循环结构:for循环和while循环。二、for循环基本语法for循环用于遍历序列(如列表、元组、字符串...

用Python进行机器学习(6)随机森林

上一节我们讲到了决策树这个算法,但是一棵决策树可能会存在过拟合的现象,而且对数据微小的变化也比较敏感,为了解决这些问题,我们可以通过多棵树的方式,也就是今天要介绍的随机森林。随机森林算法也就是Rand...

取消回复欢迎 发表评论: