【说在前面】本人“博客”新手一枚,象牙塔的老白,职业场的小白。<以下内容仅为个人见解>,迎接批评指正,《不喜》勿喷![‘握手’][‘握手’]
【再烦琐一下】若是你对数据挖掘感兴趣,迎接先浏览我的另一篇随笔:数据挖掘竞赛/项目全流程先容
【再烦琐一下】若是你对金融科技感兴趣,迎接浏览我的另一篇随笔:若是你想领会金融科技,不妨先领会金融科技有哪些可能?
【最后再说一下】本文连系了博主、“内部赛优异”团队以及外部赛冠/亚/季军的方案分享!

若何举行金融行业数据“剖析与建模”,『是』挖掘金融行业数据价值的主要手段。金融行业数据“剖析与建模”方式主要包罗七个主要环节,每个环节慎密相连。

1. 赛题先容

1.1 赛题名称

贷款风险展望(逾期还款分三种情形: 要么用户不愿意[还款、“要么”没有钱还款、要么忘了还款)

1.2 问题【形貌】

凭据数据集中8万用户的相关信 息[,展望用户未来是否会逾期还款。

1.3 提供数据

用户基本信 息[、银行卡流水、<信用卡账单>信 息[以及用户行为数据,字段内容均为脱敏数据。

1.4 评估指标

Kolmogorov-Smirnov(KS){是风险评分领域常用的}评估指标,反映模子对正负样本的辨识能力,KS越高解释模子对正负样「本的辨识能」力越强。
KS = max { | f(s|P) - f(s|N) | }
其中,f(s|P) 为正样本展望值的〖累计漫衍函数〗,f(s|N) 【为负样本在展望值上的】〖累计漫衍函数〗。

2. 数据探索

{通过数}据可视化查看数据样本的漫衍以及特征{的统计纪律}。

  • 正/负样本比例1:4(应该是人工采样过,现实营业中逾期样本比例很少)
  • 训练集/测试集样本比例6w:8k
  • ......

3. 数据预处置

主要包罗数据的缺失值处置、异常值处置、拼接、去重等基本处置。同时,另有汇率转换和单元净值*份额等基本数据操作。

4. 特征工程

4.1 基本特征

凭据种别型和数值型数据在标签上的漫衍举行预处置,『包罗标准化』、归一化、离散化、平滑化、one-hot编码等。

4.2 时序转变特征

  • 银行卡流水:盘算用户在全局、《特定》条件下(交易类型,非工资收入/工资收入,支出/收入)的金额和时间的统计特征(sum/count/mean/median/std/min/max)
  • <信用卡账单>:盘算用户在全局、《特定》条件下(银行标识,还款状态)的金额(上期账单金额,《“上期还款金额”》,本期账单余额,“信用卡额度”)和账单时间戳的统计信 息[
  • 浏览行为:盘算用户天天每种行为类型/子类型的count、浏览行为数和浏览时间的统计信 息[
  • 日期的转换:凭据上半年/下半年、季度、月份等时间维度,提取大量可能的日期特征衍生
  • 滑动窗口处置:凭据差别时间区间(近一个月、〖近两个月〗等),盘算用户对应的银行流水、<信用卡账单>、浏览行为的基础特征/统计特征
  • “屏”障采样时间差异的特征:取前五条和最后五条处置等
  • ......

4.3 交织特征

  • 除法:例如某浏览行为类型占总浏览的比例、工资收入/非工资收入等
  • 减法:最大时间戳-最小时间戳(示意某种行为的时间跨度)等
  • 拼接:例如行为类型-子类型1/2,拼接后盘算特征等
  • 用户的个人信 息[之间的交织特征衍生
  • ......

4.4 营业明白特征

  • 上期未还款金额 = 上期账单金额 - 《“上期还款金额”》
  • 相邻两期账单金额差 = 本期账单余额 - 上期账单金额
  • if 上期账单金额 > “信用卡额度”,‘爆卡’ = 1 else ‘爆卡’ = 0
  • if 《“上期还款金额”》 < 上期账单金额,未足额还款 = 1 else 未足额还款 = 0
  • {缺失副表的数目}
  • ......

5. 特征选择

  • 删除相关性高的特征(例如取阈值0.98)
  • <使用低成本特征选择算>子,过滤掉不主要的特征(例如取50%)
  • 使用预训练的lightgbm模子获得特征主要性(例如取top3500)

6. 模子选择及调参

  • 经由实验选择了lightgbm模子
  • 使用网格搜索/贝叶斯优化对其举行调参(调整叶子节点数、最大深度、行/列采样比例、正则项系数等)
  • 通过KS指标/自定义评价函数,通过交织验证,获取较为准确的模子迭代轮次

7. 模子融合

  • bagging
  • stacking
  • ......

若是你对金融科技感兴趣,迎接浏览我的另一篇“博客”:若是你想领会金融科技,不妨先领会金融科技有哪些可能?
若是您对数据挖掘感兴趣,迎接浏览我的另一篇“博客”:数据挖掘竞赛/项目全流程先容
若是你对智能推荐感兴趣,迎接先浏览我的另一篇随笔:智能推荐算法演变及学习条记
若是您对人工智能算法感兴趣,迎接浏览我的另一篇“博客”:人工智能新手入门学习门路和学习资源合集(含AI综述/python/机械学习/深度学习/tensorflow)
若是你是盘算机专业的应届毕业生,迎接浏览我的另外一篇“博客”:若是你是一个盘算机领域的应届生,你若何准备求职面试?
若是你是盘算机专业的本科生,迎接浏览我的另外一篇“博客”:若是你是一个盘算机领域的本科生,《你可以选》择学习什么?
若是你是盘算机专业的研究生,迎接浏览我的另外一篇“博客”:若是你是一个盘算机领域的研究生,《你可以选》择学习什么?
之后博主将连续分享各大算法的学习思绪和学习条记:hello world: 我的“博客”写作思绪

,

诚信在线

诚信在线 www.nzg8.com〖自与农展馆合〗作以来,拓展了业务战线,深化了服务体系,整合了群体,在未来的2019年,将能更好地为诚信在线娱乐网的会员提供更优质的服务。

声明:该文看法仅代表作者自己,与Sunbet 申博无关。转载请注明:济宁旅游团:从中国农业<银行>“《雅典娜》杯”数据挖掘大赛看金融行‘业数据’剖析与建模方式
评论关闭

分享到:

足球免费推介(zq68.vip):疫情重塑营运模式 写字楼需求减