作者:王青天 孔越
出版时间:2020年
内容介绍:
本书是一本基于Python语言的金融大数据风控建模入门读物。书中结合人工智能领域流行的机器学习算法进行信用评分卡模型构建,从而解决金融领域最为核心的风险控制问题。本书共19章,分为4篇。第1篇“智能风控背景”,旨在由浅入深地引领读者走进金融科技领域,带领他们了解智能风控,并系统、全面地认识评分卡;第2篇“评分卡理论与实战基础”,围绕评分卡构建的全流程,向读者一一讲述每个环节的理论知识,并进行代码实践,帮助读者获得从0到1构建评分卡模型的工程能力;第3篇“评分卡理论与实战进阶”,旨在从建模中可能遇到的问题出发,提供一些解决问题或提升模型效果的思路,使建立的评分卡具有更好的业务适应及预测能力;第4篇“LendingClub数据集实战”,结合真实信贷场景的数据集,带领读者完成从数据分析至评分卡生成的各个流程,旨在让读者体验真实场景,具备评分卡实战能力,同时为读者在实际工作中构建评分卡提供参考。本书适合有一定Python语言基础的金融风控从业人员阅读,也适合想要学习人工智能如何应用于金融场景中的开发人员及业务人员阅读。另外,金融、计算机等相关专业的学生,以及金融科技从业人员及相关培训学员也可将本书作为教材或者兴趣读物阅读。
目录
第1篇智能风控背景 2
第1章 金融科技介绍 2
1.1 金融科技的前世今生 2
1.2 金融科技正深刻地改变和塑造着金融业态 4
1.3 新兴科技不断强化金融科技的应用能力 5
1.4 金融风险控制面临着前所未有的挑战 7
1.5 智能风控和评分卡 8
1.6 评分卡模型的开发流程 11
第2章 机器学习介绍 17
2.1 机器学习的概念 17
2.2 机器学习的分类 17
2.2.1 有监督学习 18
2.2.2 无监督学习 18
2.2.3 强化学习 19
2.3 机器学习与人工智能的关系 20
2.4 机器学习与数学的关系 20
2.5 机器学习与深度学习 22
第3章 评分卡模型介绍 25
3.1 申请评分卡 25
3.1.1 数据获取 26
3.1.2 好坏样本定义 26
3.1.3 观察期与表现期确定 29
3.1.4 样本分层 32
3.1.5 数据清洗与预处理 33
3.1.6 特征工程 33
3.1.7 模型训练与优化 35
3.2 行为评分卡 36
3.2.1 数据获取 37
3.2.2 时间窗口 37
3.2.3 特征工程 38
3.3 催收评分卡 40
3.3.1 催收评分卡分类 40
3.3.2 催收策略 41
3.4 反欺诈模型 42
3.4.1 欺诈风险与信用风险比较 42
3.4.2 欺诈模型好坏样本定义 43
3.4.3 欺诈主体分析 44
3.4.4 反欺诈方法介绍 44
第2篇评分卡理论与实战基础 48
第4章 数据清洗与预处理 48
4.1 数据集成 49
4.2 数据清洗 50
4.3 探索性数据分析 52
4.4 Python代码实践 54
4.4.1 数据集成 54
4.4.2 数据清洗 58
4.4.3 探索性数据分析 61
第5章 变量编码方法 66
5.1 无监督编码 66
5.1.1 One-hot编码 66
5.1.2 Dummy variable编码 68
5.1.3 Label编码 69
5.2 有监督编码 70
5.2.1 WOE编码 70
5.2.2 WOE编码与One-hot编码比较 73
5.3 Python代码实践 75
5.3.1 One-hot编码 76
5.3.2 Dummy variable编码 80
5.3.3 Label编码 82
5.3.4 WOE编码 85
第6章 变量分箱方法 89
6.1 变量分箱流程 91
6.2 最优Chi-merge卡方分箱方法 92
6.3 Best-KS分箱方法 94
6.4 最优IV分箱方法 95
6.5 基于树的最优分箱方法 95
6.6 Python代码实践 98
6.6.1 最优Chi-merge分箱 98
6.6.2 最优IV分箱 106
6.6.3 基于树的分箱 107
第7章 变量选择 109
7.1 过滤法变量选择 109
7.2 包装法变量选择 112
7.3 嵌入法变量选择 113
7.4 Python代码实践 115
7.4.1 过滤法变量选择 115
7.4.2 包装法变量选择 118
7.4.3 嵌入法变量选择 120
第8章 Logistic回归模型 123
8.1 Logistic回归模型原理 123
8.2 过拟合与欠拟合 128
8.3 Python代码实践 130
第9章 模型的评估指标 136
9.1 正负样本的选择 137
9.2 标准评估指标 139
9.3 概率密度评估指标 141
9.4 概率分布评估指标 144
9.5 Python代码实践 153
第10章 评分卡分数转化 157
10.1 由概率到分数的转换 157
10.2 变量的分值计算 159
10.3 评分卡性能评估 161
10.4 Python代码实践 163
第11章 模型在线监控 169
11.1 稳定性监控 169
11.2 单调性监控 172
11.3 性能监控指标 173
11.4 Python代码实践 174
第3篇评分卡理论与实战进阶 180
第12章 样本不均衡处理 180
12.1 数据层下采样样本不均衡的处理方法 181
12.1.1 随机下采样方法 181
12.1.2 样本邻域选择的下采样方法 182
12.1.3 样本邻域清理的下采样方法 184
12.1.4 Bagging集成的下采样方法 185
12.1.5 Boosting集成的下采样方法 187
12.2 数据层上采样样本不均衡的处理方法 188
12.2.1 随机上采样方法 188
12.2.2 SMOTE样本生成方法 189
12.2.3 Borderline-SMOTE样本生成方法 190
12.3 算法层样本不均衡的处理方法 190
12.4 模型评估层样本不均衡的处理方法 191
12.5 Python代码实践 191
12.5.1 数据层下采样样本不均衡处理代码实现 192
12.5.2 数据层上采样样本不均衡处理代码实现 201
第13章 特征工程进阶 206
13.1 数据层特征工程 206
13.2 算法层特征工程 211
13.2.1 基于树模型的特征生成 211
13.2.2 FM特征交叉 215
13.3 Python代码实践 219
13.3.1 数据层特征工程代码实现 219
13.3.2 算法层特征工程代码实现 222
第14章 决策树模型 229
14.1 决策树模型的原理 229
14.2 决策树学习 229
14.3 决策树与过拟合 234
14.4 Python代码实践 236
第15章 神经网络模型 241
15.1 神经元模型 241
15.2 神经网络的网络结构 242
15.3 神经网络的学习策略 247
15.4 Python代码实践 253
第16章 支持向量机模型 257
16.1 感知器模型 257
16.1.1 感知器模型的原理 257
16.1.2 感知器与支持向量机模型 260
16.2 线性可分支持向量机 261
16.3 线性支持向量机 267
16.4 非线性支持向量机 272
16.5 感知器相关模型比较 278
16.6 Python代码实践 280
16.6.1 线性支持向量机模型代码实现 280
16.6.2 非线性支持向量机模型代码实现 282
第17章 集成学习 286
17.1 Bagging与Boosting对比 286
17.2 Random Forest模型原理 288
17.3 Adaboost模型原理 289
17.4 GBDT模型原理 292
17.5 Xgboost模型原理 297
17.6 Python代码实践 304
17.6.1 Random Forest模型 304
17.6.2 Adaboost模型 308
17.6.3 GBDT模型 310
17.6.4 Xgboost模型 313
第18章 模型融合 317
18.1 Blending方法原理 317
18.2 Stacking方法原理 320
18.3 Python代码实践 322
18.3.1 Blending模型融合代码实现 322
18.3.2 Stacking模型融合代码实现 325
第4篇 Lending Club数据集实战 330
第19章 完整的模型开发实现 330
19.1 数据源介绍 330
19.2 数据的获取与预处理 331
19.2.1 数据准备 331
19.2.2 好坏样本定义 334
19.2.3 数据清洗与预处理 335
19.3 特征工程 341
19.3.1 简单的特征工程 341
19.3.2 变量分箱与编码 342
19.3.3 变量选择 348
19.4 模型构建与评估 351
19.4.1 模型构建与优化 351
19.4.2 模型评估 352
19.5 评分卡生成 353
附录A 主要符号表 357
附录B 开发环境简介 358
参考文献 362
Python金融大数据风控建模实战基于机器学习pdf下载