零起点Python机器学习快速入门-6-1-逻辑回归算法
wxin55 2025-05-08 07:10 2 浏览 0 评论
实现了一个完整的机器学习分类流程,主要使用逻辑回归模型对鸢尾花数据进行分类预测。首先,从指定路径读取训练集和测试集的特征数据与目标数据。接着,调用自定义的 mx_log 函数,创建并训练一个使用 L2 正则化的逻辑回归模型。之后,使用训练好的模型对测试集的特征数据进行预测,并将预测结果添加到一个新的 DataFrame 中,同时对预测结果进行四舍五入处理。再将包含测试集特征、目标数据和预测结果的 DataFrame 保存为 CSV 文件。最后,调用自定义的 ai_acc_xed 函数计算模型的准确率并输出。整个流程涵盖了数据加载、模型训练、预测和评估等关键步骤。
# 导入用于操作系统交互的 os 模块,可用于文件和目录操作
import os
# 导入 sys 模块,提供对 Python 解释器使用或维护的一些变量的访问,以及与解释器进行交互的函数
import sys
# 导入用于正则表达式操作的 re 模块
import re
# 导入用于处理日期和时间的 arrow 模块
import arrow
# 导入用于网页解析的 bs4 模块
import bs4
# 导入 pandas 库,别名为 pd,用于数据处理和分析
import pandas as pd
# 导入用于发送 HTTP 请求的 requests 库
import requests
# 从 bs4 模块导入用于解析 HTML 和 XML 文档的 BeautifulSoup 类
from bs4 import BeautifulSoup
# 导入 sklearn 库,它是一个强大的机器学习库
import sklearn
# 从 sklearn 中导入用于加载数据集的 datasets 以及用于线性模型的 linear_model
from sklearn import datasets, linear_model
# 从 sklearn.model_selection 导入 train_test_split 函数,用于将数据集划分为训练集和测试集
# 旧版本使用 sklearn.cross_validation 中的 train_test_split,现在已迁移到 model_selection
# from sklearn.cross_validation import train_test_split
from sklearn.model_selection import train_test_split
# 从 sklearn.linear_model 导入用于创建线性回归模型的 LinearRegression 类
from sklearn.linear_model import LinearRegression
# 从 sklearn 导入用于评估模型性能的 metrics 模块
from sklearn import metrics
# 从 sklearn.model_selection 导入用于交叉验证预测的 cross_val_predict 函数
from sklearn.model_selection import cross_val_predict
# 导入自定义模块 zsys
import zsys
# 导入自定义模块 ztools,并将其别名为 zt
import ztools as zt
# 导入自定义模块 ztools_str,并将其别名为 zstr
import ztools_str as zstr
# 导入自定义模块 ztools_web,并将其别名为 zweb
import ztools_web as zweb
# 导入自定义模块 ztools_data,并将其别名为 zdat
import ztools_data as zdat
# 导入自定义模块 ztop_ai,并将其别名为 zai
import ztop_ai as zai
# 导入自定义模块 zpd_talib,并将其别名为 zta
import zpd_talib as zta
# 导入自定义模块 tfb_sys,并将其别名为 tfsys
import tfb_sys as tfsys
# 导入自定义模块 tfb_tools,并将其别名为 tft
import tfb_tools as tft
# 导入自定义模块 tfb_strategy,并将其别名为 tfsty
import tfb_strategy as tfsty
# 导入自定义模块 tfb_backtest,并将其别名为 tfbt
import tfb_backtest as tfbt
#-----------------------
#1
# 定义文件路径前缀
fs0='dat/iris_'
# 打印初始化信息和文件路径前缀
print('\n1# init,fs0,',fs0)
# 读取训练集的特征数据,index_col=False 表示不将任何列作为索引
x_train=pd.read_csv(fs0+'xtrain.csv',index_col=False);
# 读取训练集的目标数据,index_col=False 表示不将任何列作为索引
y_train=pd.read_csv(fs0+'ytrain.csv',index_col=False);
# 读取测试集的特征数据,index_col=False 表示不将任何列作为索引
x_test=pd.read_csv(fs0+'xtest.csv',index_col=False)
# 读取测试集的目标数据,index_col=False 表示不将任何列作为索引
y_test=pd.read_csv(fs0+'ytest.csv',index_col=False)
# 复制测试集的特征数据,方便后续添加预测结果
df9=x_test.copy()
#2
# 打印提示信息,表示开始建模
print('\n2# 建模')
# 调用自定义模块 zai 中的 mx_log 函数,传入训练集的特征和目标数据的数组形式进行模型训练
mx =zai.mx_log(x_train.values,y_train.values)
#3
# 打印提示信息,表示开始进行预测
print('\n3# 预测')
# 使用训练好的模型 mx 对测试集的特征数据进行预测
y_pred = mx.predict(x_test.values)
# 在复制的测试集特征数据 DataFrame 中添加预测结果列
df9['y_predsr']=y_pred
# 在 df9 中添加测试集的目标数据列和预测结果列
df9['y_test'],df9['y_pred']=y_test,y_pred
# 将预测结果四舍五入并转换为整数类型
df9['y_pred']=round(df9['y_predsr']).astype(int)
#4
# 将包含测试集特征、目标数据和预测结果的 DataFrame 保存为 CSV 文件,不保存索引
df9.to_csv('tmp/iris_9.csv',index=False)
# 打印提示信息
print('\n4# df9')
# 打印 df9 的最后几行数据
print(df9.tail())
#5
# 调用自定义模块 zai 中的 ai_acc_xed 函数,传入 df9、参数 1 和 False 来计算模型的准确率
dacc=zai.ai_acc_xed(df9,1,False)
# 打印模型的准确率,保留两位小数
print('\n5# mx:mx_sum,kok:{0:.2f}%'.format(dacc))
#-----------------------
# 打印完成提示信息
print('\nok!')
# 定义一个名为 mx_log 的函数,用于创建并训练一个逻辑回归模型
# 参数 train_x:表示训练数据的特征矩阵,通常是一个二维数组或 DataFrame,每一行代表一个样本,每一列代表一个特征
# 参数 train_y:表示训练数据的目标值,通常是一个一维数组或 Series,每个元素对应 train_x 中一行样本的目标值
def mx_log(train_x, train_y):
# 创建一个 LogisticRegression 类的实例 mx,用于构建逻辑回归模型
# penalty='l2' 是逻辑回归模型的一个参数设置,指定使用 L2 正则化
# L2 正则化有助于防止模型过拟合,它会对模型的系数进行约束,使得系数的平方和尽可能小
mx = LogisticRegression(penalty='l2')
# 使用训练数据的特征矩阵 train_x 和对应的目标值 train_y 对模型进行训练
# fit 方法是 sklearn 中所有模型类都有的方法,它会让模型学习数据中的模式和规律
# 通过不断调整模型的参数,使得模型能够尽可能准确地根据特征预测目标值
mx.fit(train_x, train_y)
# 返回训练好的逻辑回归模型 mx,以便后续使用该模型进行预测等操作
return mx
#结果验证函数
def ai_acc_xed(df9,ky0=5,fgDebug=True):
#1
#ny_test,ny_pred=len(df9['y_test']),len(df9['y_pred'])
ny_test=len(df9['y_test'])
df9['ysub']=df9['y_test']-df9['y_pred']
df9['ysub2']=np.abs(df9['ysub'])
#2
df9['y_test_div']=df9['y_test']
df9.loc[df9['y_test'] == 0, 'y_test_div'] =0.00001
df9['ysubk']=(df9['ysub2']/df9['y_test_div'])*100
dfk=df9[df9['ysubk']<ky0]
dsum=len(dfk['y_pred'])
dacc=dsum/ny_test*100
#
#3
if fgDebug:
print('\nai_acc_xed')
print(df9.head())
y_test,y_pred=df9['y_test'],df9['y_pred']
print('\nn_df9,{0},n_dfk,{1}'.format(ny_test,dsum))
dmae=metrics.mean_absolute_error(y_test, y_pred)
dmse=metrics.mean_squared_error(y_test, y_pred)
drmse=np.sqrt(metrics.mean_squared_error(y_test, y_pred))
print('acc-kok: {0:.2f}%, MAE:{1:.2f}, MSE:{2:.2f}, RMSE:{3:.2f}'.format(dacc,dmae,dmse,drmse))
#
#4
return dacc
runfile('D:/zwPython/zwrk/4_零起点Python机器学习快速入门/zai201_mx_log.py', wdir='D:/zwPython/zwrk/4_零起点Python机器学习快速入门')
Reloaded modules: zsys, cpuinfo, ztools, ztools_str, ztools_web, ztools_data, ztop_ai, zpd_talib, tfb_sys, tfb_tools, tfb_strategy, tfb_backtest
1# init,fs0, dat/iris_
2# 建模
3# 预测
4# df9
x1 x2 x3 x4 y_predsr y_test y_pred
33 6.4 2.8 5.6 2.1 1 1 1
34 5.8 2.8 5.1 2.4 1 1 1
35 5.3 3.7 1.5 0.2 2 2 2
36 5.5 2.3 4.0 1.3 3 3 3
37 5.2 3.4 1.4 0.2 2 2 2
5# mx:mx_sum,kok:97.37%
ok!
d:\zwpython\py37\python-3.7.6.amd64\lib\site-packages\sklearn\utils\validation.py:760: DataConversionWarning:
A column-vector y was passed when a 1d array was expected. Please change the shape of y to (n_samples, ), for example using ravel().
相关推荐
- js获取上传文件类型以及大小的方法
-
前端web上传文件时,需要在上传之前判断一下文件的类型以及文件的大小,HTML为前端的标记语言是无法做到这一点,只能使用javascript动态脚本代码来实现。js获取上传文件大小的方法示例代码:&...
- 资源分享:移动设备类型判断JS(什么叫移动设备)
-
相信很多童鞋在实际开发中都会遇到需要判断设备类型来进行不同页面跳转处理,例如手机端访问移动页面,pc端访问pc页面亦或是ios和安卓扫描同一个二维码跳转至不同的下载页面。有这样一种做法当然了你可以使用...
- JS学习笔记:三、数据类型(js六中数据类型)
-
上节知识点回顾:1.什么是变量2.变量的声明3.一次性声明多个变量并赋值4.变量名的规范5.变量的使用本讲内容:数据类型1.数据类型分类原始类型(基本类型)+引用类型原始类型:数字、字符串、布尔类...
- JavaScript中常用数据类型,你知道几个?
-
本文首发自「慕课网」,想了解更多IT干货内容,程序员圈内热闻,欢迎关注!作者|慕课网精英讲师Lison这篇文章我们了解一下JavaScript中现有的八个数据类型,当然这并不是JavaScr...
- JS自有类型系统的问题区分竟如此简单?
-
嗨,我是勾勾。今天想要和你分享的是如何区分强弱类型与JS自有类型系统的问题。类型系统的区分我们在区分不同编程语言时会有一些界定的标准。通常来讲,我们会从类型安全和类型检查上进行区分。类型安全强类型弱类...
- 抛弃 typeof,这样判断 JavaScript 类型更准确
-
JavaScript作为一门动态类型语言,类型判断一直是开发者面临的常见挑战。众所周知,typeof操作符存在诸多局限性,无法准确区分数组、对象、null等类型。那么,有没有更精确、更优雅的类型判断方...
- 有哪些好玩的 Python 代码?(python有什么好玩的项目)
-
Python是一门非常强大且灵活的编程语言,它不仅可以用来编写复杂的软件应用,还能用来创造一些有趣的小程序和游戏。以下是一些好玩的Python代码示例,涵盖了基础语法、字符串处理、图形绘制等多个...
- Python统计快乐8的两码组合数据随机新的两码三码
-
我们利用Python统计出快乐8的两码组合数据,来生成新的快乐8选二,选三等组合fromcollectionsimportCounterimportrandom#输入新的快乐8两码统计...
- 10 个鲜为人知的 Python 可视化概念和技巧
-
数据可视化可视化是我们以各种可视化形式描述数据的操作,从图表、图形到信息图形。它是探索性数据分析(EDA)中最重要的部分之一,因为它使我们能够轻松掌握变量之间的关系以及对后期特征工程和建模有用的数...
- 用Python搞个随机简单的迷宫(python做迷宫)
-
为了增加一点趣味打发鼓噪的情绪,玩个简单的迷宫,方便以后搞游戏迷宫。堵路的就简单用#符号吧,如果弄成界面的话可以用图片来,比图墙的图片。因为是随机的,不是固定的一个迷宫,我们少不了random模块...
- 面试干货——某度Python面试题,转发收藏
-
目录1、Python是如何进行内存管理的?2、什么是lambda函数?它有什么好处?3、Python里面如何实现tuple和list的转换?4、请写出一段Python代码实现删除一个list里面的重复...
- Python while循环深度解析:从基础到实战,一文全掌握!
-
一、循环的本质:重复执行的魔法在编程世界中,循环是实现自动化的核心工具。想象你需要重复做100次相同的事情,手动编写100次代码显然不现实。这时候,循环就像一位不知疲倦的助手,帮你完成重复性任务。Py...
- 如何在 Python 中随机排列列表元素
-
在本教程中,我们将学习在Python中如何打乱列表元素顺序,随机排列列表元素。如何随机排列列表是一项非常有用的技能。它在开发需要选择随机结果游戏中非常有用。它还适用于数据相关的工作中,可能需要提取...
- Python快速入门教程7:循环语句(python循环语句有哪些)
-
一、循环语句简介循环语句用于重复执行一段代码块,直到满足特定条件为止。Python支持两种主要的循环结构:for循环和while循环。二、for循环基本语法for循环用于遍历序列(如列表、元组、字符串...
- 用Python进行机器学习(6)随机森林
-
上一节我们讲到了决策树这个算法,但是一棵决策树可能会存在过拟合的现象,而且对数据微小的变化也比较敏感,为了解决这些问题,我们可以通过多棵树的方式,也就是今天要介绍的随机森林。随机森林算法也就是Rand...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- hive行转列函数 (63)
- sourcemap文件是什么 (54)
- display none 隐藏后怎么显示 (56)
- 共享锁和排他锁的区别 (51)
- httpservletrequest 获取参数 (64)
- jstl包 (64)
- qsharedmemory (50)
- watch computed (53)
- java中switch (68)
- date.now (55)
- git-bash (56)
- 盒子垂直居中 (68)
- npm是什么命令 (62)
- python中+=代表什么 (70)
- fsimage (51)
- nginx break (61)
- mysql分区表的优缺点 (53)
- centos7切换到图形界面 (55)
- 前端深拷贝 (62)
- kmp模式匹配算法 (57)
- jsjson字符串转json对象 (53)
- jdbc connection (61)
- javascript字符串转换为数字 (54)
- mybatis 使用 (73)
- 安装mysql数据库 (55)