【35分钟掌握金融风控策略6】决策树风控策略开发

目录

​编辑

决策树

决策树原理

决策树生成

特征选择

决策树生成

决策树剪枝


决策树

决策树(Decision Tree)是一种强大的分类和预测方法,因其实践起来比较简单且具有较好的解释性,所以在金融风控领域应用广泛。决策树也是很多集成算法(如Random Forest、GBDT、XGBoost、LightGBM)的基础,因此,掌握决策树的原理和应用是必要的。

决策树原理

决策树以树状图为基础(故得名决策树),输出结果为一系列简单、实用的规则。决策树其实就是一组if-then 规则集,如“如果客户近两年借款申请次数小于3且月均收入大于20000元,则授信申请通过”等类似的规则,这些规则集易于理解且可解释性强,这与人脑决策时的思维方式类似。
决策树由节点和有向边组成.

决策树的根节点到叶节点的每一条路径构成了一条规则,路径上内部节点的特征对应着具体规则的条件,叶节点表示最终决策结果。从根节点到叶节点的一条条路径构成了决策树的i then 规则集。决策树的规则集具有互斥且完备的性质,即最终每一个实例都只被一条规则覆盖。

决策树生成

决策树主要分为两种类型:分类树和回归树。分类树的目标变量为离散型,最终目的是预测各样本所属的类别,如基于客户的征信行为预测客户借款后是否逾期;而回归树的目标变量为连续型,最终目的是预测各样本的最终取值,如基于客户的消费行为预测客户的收入。

决策树的生成步骤是:特征选择、决策树生成、决策树剪枝。

特征选择

特征选择就是选择对训练集样本有较强分类能力的特征来提高决策树学习效率。至于如何选择特征,有不同的量化标准,从而衍生出了不同的决策树算法。特征选择的标准主要有熵(Entropy)、信息增益(Information Gain)、信息增益比(Information Gain Ratio)、基尼指数(Gini Index)、均方误差(Mean Squared Error)和平均绝对误差(Mean Absolute Error)等,其中均方误差和平均绝对误差适用于回归树,其他指标适用于分类树。

在开始进行特征选择之前,往往需要对建模样本进行数据清洗,待完成数据清洗后,才会开始进行特征选择,筛选效果好的特征用来生成决策树。常见的数据清洗工作是缺失值处理。在实际生产中,每次构建决策树基本上都会遇到样本中某些特征值缺失的情况。若存在缺失值的样本较少且缺失值不是关键特征值,则抛弃缺失样本对决策树的构建没什么影响。若缺失的样本较多或者缺失值是关键的特征值,则抛弃有缺失值的样本将造成较多有用信息的浪费,并且最终构建的决策树可能存在较大偏差,在这种情况下,抛弃缺失样本的方法是不可取的。在构建决策树的过程中,如何处理缺失值呢?通常的做法是基于业务情况了解产生缺失值的原因,对有缺失值的特征进行插补或者不处理缺失值,直接将有缺失值的样本纳人建模样本集中来构建决策树模型。常见的缺失值插补的方法有均值插补、众数插补、回归插补、二阶插补、抽样填补等,在处理实际问题时,可结合具体情况采用相应的处理方法。

决策树生成

决策树是一种贪心算法,在生成决策树的过程中,会基于某种特征选择标准自上而下递归地生成子节点,直到数据集不可分或达到限制条件从而停止决策树“生长”。决策树的每一次节点生成步骤其实就是不断基于特征选择方法递归地选择最优特征和特征时应的切分点的过程。由于采用贪心算法生成决策树,因此最终得到的决策树往往非常庞大且冗余,很容易在训练样本上产生过拟合,即在训练样本上的准确率非常高,但是在验证样本上的准确率比较差。因此,为了确保决策树有较好的泛化能力,通常需要通过剪枝过程对复杂的决策树进行裁剪,避免生成的决策树过于复杂。

决策树剪枝

决策树本身的特点决定了它比较容易过拟合,在这种情况下,通过剪枝(pruning)来控制模型复杂度是一种非常有效且必要的手段。需要说明的是,虽然绝大多数决策树都支持剪枝,但是也有例外,如ID3算法生成的决策树就不支持剪枝。决策树剪枝的过程就是从生成的决策树上裁掉一些子树或者叶节点。剪枝的目的是通过剪枝来提升决策树的泛化能力。决策树剪枝的基本策略有预剪枝(pre-pruning)和后剪枝(post-pruning)两种,在实际生产中,往往将两种剪枝方法结合使用。

预剪枝是指在决策树生成前设定一些前置条件,用来决定每个节点是否应该继续划分。预剪枝能够避免生成过于复杂的决策树,且能够降低计算复杂度,但是可能生成过于简单的决策树,导致预测时偏差较大,从而带来欠拟合的风险。预剪枝基于贪心算法,抱着能多剪枝就多剪枝的思路对决策树进行修剪,使得决策树的很多分支没有展开就提前停止了。虽然有些分支的当前划分不能提升泛化性能,甚至可能导致泛化性能暂时下降,但是在其基础上进行的后续划分有可能导致泛化性能显著提升,这就是预剪枝剪太多从而导致欠拟合的原因。

后剪枝就是先从训练集充分生长成一棵完整的决策树,再自底向上地对非叶结点进行考察,若将该节点对应的子树替换为叶结点能带来决策树泛化性能的提升,则将该子树替换为叶结点。后剪枝决策树通常比预剪枝决策树保留了更多的分支,且会产生更大的计算开销。一般情况下,后剪枝决策树的欠拟合风险相对较小,且泛化性能往往会优于预剪枝决策树。

在决策树的生成算法中,典型代表有ID3、C4.5、CART (Classification And Regression Tree,分类与回归树)等,它们的区别在于树的结构与构造算法。

为了弥补决策树容易过拟合、预测精度偏低等不足,基于决策树算法衍生出了随机森林(Random Forest)、GBDT、XGBoost、LightGBM等集成算法。上述集成算法预测精度较高,在风控领域应用广泛。常用的风控评分卡模型(A卡、B卡、C卡)除选择逻辑斯谛回归(Logistic Regression)算法拟合以外,往往还会同时选择上述至少一种集成算法进行拟合,通过比较不同算法拟合的模型结果,选择最优的模型进行上线决策。

print('要天天开心呀')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/559822.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何快速提高阿里国际、Shopee和速卖通产品的曝光率?

当卖家完成产品上传后,他们还能做些什么来进一步提升产品的曝光量呢?产品的曝光量无疑对店铺的销量具有显著影响,那么,如何有效地提升产品曝光量呢?又有哪些快速且实用的方法呢?今天,我们就来深…

【力扣 Hot100 | 第五天】4.20(回文链表)

1.回文链表 1.1题目 给你一个单链表的头节点 head ,请你判断该链表是否为回文链表。如果是,返回 true ;否则,返回 false 。 示例一: 输入:head [1,2,2,1] 输出:true示例二: 输入…

智慧城市标准化白皮书(2022版)发布

2022年7月25日,国家智慧城市标准化总体组2022年度全体会议召开期间,《智慧城市标准化白皮书(2022版)》正式发布。 城市作为一个复杂巨系统,是多元主体融合及多元活动集聚的复杂综合体。城市的运行发展关联 到发展、治…

康耐视visionpro-Cog2DSymbolTool操作操作工具详细说明

Cog2 DSymbolToolI功能说明: 二维码读取工具 Cog2 DSymbolTool操作说明: ①.打开工具栏,双击或点击鼠标拖拽添加Cog2DSymbolTool工具 ②.添加输入图像,右键“链接到”或以连线拖拽的方式选择相应输入图像。 ③.代码系统&#x…

Pytest精通指南(22)钩子函数-重复执行(pytest-repeat)

文章目录 前言应用场景插件安装参数分析使用方式一:命令行使用方式二:配置文件使用方式三:装饰器 前言 pytest框架中的**重复测试(pytest-repeat)**插件的用途是允许在运行测试用例时进行多次循环,以更全面…

2024年开通最新版云开发cms步骤,开始开发微信小程序前的准备工作,认真看完奥!

小程序官方有改版了,搞得石头哥不得不紧急的再新出一版,教大家开通最新版的cms网页管理后台 一,技术选型和技术点 1,小程序前端 wxml css JavaScript MINA原生小程序框架 2,数据库 云开发 云数据库 云…

中毒的电脑插U盘也会中毒吗?U盘中毒了不显示数据怎么办

随着数字技术的快速发展,U盘作为数据存储和传输的重要工具,广泛应用于我们的日常生活和工作中。然而,U盘在带来便利的同时,也带来了潜在的安全风险。当一台中毒的电脑插入U盘时,U盘是否也会被感染?如果U盘中…

PHP 爬虫如何配置代理 IP(CURL 函数)

在 PHP中 配置代理IP&#xff0c;可以通过设置 CURL 库的选项来实现&#xff0c;代码如下&#xff1a; 当然你要有代理ip来源&#xff0c;比如我用的这个 代理商 &#xff0c;如果想服务稳定不建议找开源代理池&#xff0c;避免被劫持。 <?php // 初始化cURL会话 $ch cu…

C++中的stack(容器适配器)

目录 一、成员函数 一、构造函数 二、入栈 三、出栈 四、判空 empty () 五、栈大小 size 六、取栈顶元素 top 七、入栈 emplace 八、交换函数 swap 二、非成员函数重载 一、关系运算符重载 二、交换函数 C中的stack不再是容器&#xff0c;而是容器适配器 注意&a…

[InternLM训练营第二期笔记]4. XTuner 微调 LLM:1.8B、多模态、Agent

该系列是上海AI Lab举行的书生 浦语大模型训练营的相关笔记部分。 该笔记是第四节课&#xff0c;学习大语言模型微调的基本概念&#xff0c;以及利用XTuner工具进行微调。 0. 什么是LLM中的微调 0.1 两种Finetune范式 微调的目的是为了让foundation模型在特定的领域更好地发挥…

力扣练习题(2024/4/18)

1不相交的线 在两条独立的水平线上按给定的顺序写下 nums1 和 nums2 中的整数。 现在&#xff0c;可以绘制一些连接两个数字 nums1[i] 和 nums2[j] 的直线&#xff0c;这些直线需要同时满足&#xff1a; nums1[i] nums2[j]且绘制的直线不与任何其他连线&#xff08;非水平线…

mysql按季度统计数据

最近遇到按表里得交付时间换成季度取统计&#xff0c;如下&#xff1a; select sp.Id,sp.title,QUARTER(sp.expected_delivery_time) dateStr,CONCAT(DATE(MIN(sp.expected_delivery_time)),至,DATE(MAX(sp.expected_delivery_time))) dateStr2,sp.DemandType,sp.IndustryGrou…

【人工智能基础】状态空间搜索

状态空间法 状态空间&#xff1a;一个问题全部可能的状态以及其关系的集合。 状态空间图&#xff1a;以图的形式表示问题的状态空间&#xff0c;节点对应状态&#xff0c;边对应状态转移算子&#xff0c;边上的权对应转移所需的代价 问题的解&#xff1a;是从最开始状态到目…

BP使用和弱口令漏洞

目录 一、BP使用 1.BP设置 2.Proxy 3.Reapter 4.Decord 5.Intruder 二、弱口令爆破 1.服务弱口令爆破 2.验证码绕过 一、BP使用 1.BP设置 设置代理的监听端口: 这里设置为本机的9090端口 2.Proxy 浏览器要挂代理&#xff0c;设置为本机的9090端口 打开拦截功能 当浏览…

Youtube DNN

目录 1. 挑战 2. 系统整体结构 3.召回 4. 排序 5. 训练和测试样本的处理 1. 挑战 &#xff08;1&#xff09;规模。很多现有的推荐算法在小规模上效果好&#xff0c;但Youtobe规模很大。 &#xff08;2&#xff09;新颖度。Youtobe语料库是动态的&#xff0c;每秒都会有…

Windows如何安装JDK

JDK和JRE简介 JDK&#xff1a;Java Development ToolKit java开发工具包&#xff0c;包含JRE针对java程序开发者 JRE&#xff1a;Java Runtime Environment java程序的运行环境针对java使用者来说 下载JDK&#xff0c;进入官网下载 Oracle官网 双击下载好之后的exe文件&#…

关于Python中install edge_tts记录

如下代码&#xff1a; #!/usr/bin/env python3""" Basic audio streaming example.This example shows how to stream the audio data from the TTS engine, and how to get the WordBoundary events from the engine (which could be ignored if not needed).…

分保、等保、关保、密评之间联系与区别

分保、等保、关保、密评之间联系与区别 什么是“三保一评”分保等保关保密评 相关的法律法规依据分保等保关保密评 分保工作简介分保工作流程分级保护技术要求 等保工作简介关保工作简介密评工作简介三保一评联系与区别 什么是“三保一评” 分保 涉密信息系统分级保护 指涉密信…

vivado 存储器校准调试

存储器校准调试 Vivado 中的存储器接口 IP 支持校准调试。其中存储有实用的核配置、校准和数据窗口信息 &#xff0c; 可在 Vivado 硬件管理器 中访问这些信息。“存储器校准调试 (Memory Calibration Debug) ”可随时用于读取此信息 &#xff0c; 并从存储器接口 IP 中获…

Linux命令学习—Iptables 防火墙(上)

1.1、防火墙 1、防火墙的定义 所谓防火墙指的是一个由软件和硬件设备组合而成、在内部网和外部网之间、专用网与公共网之间的界面上 构造的保护屏障.是一种获取安全性方法的形象说法&#xff0c;它是一种计算机硬件和软件的结合&#xff0c;使 Internet 与 Intranet 之间建立起…