做过模型的童鞋都知道,建模就是流水线的工种。在整个流水线中,我们梳理了有两个模型"最"需要注意的内容,分别是"最关键"与“最容易犯错"。这两个问题自然也是各位新手建模童鞋,更应该了解清楚的内容。
最关键的一part,模型的特征筛选;
最容易犯错的一part,是模型的特征回溯。
首先提到特征,讲得浅白点就是描述某个客观事物的表象。比如风控模型使用的特征,常常包含特征有:征信、消费支付、多头借贷、设备类等特征。
先说这里的第一个"最",最关键的特征筛选。目前,整体特征筛选的流程如下:
编辑切换为居中
添加图片注释,不超过 140 字(可选)
俗话说:数据决定了模型的上限,而模型只是逼近这个上限。下图表示为模型开发阶段和模型上线调用阶段的数据的使用逻辑。
编辑切换为居中
添加图片注释,不超过 140 字(可选)
在特征筛选中,只要把握好了模型中最重要的几类筛查指标就能做好80%的特征筛选工作,比如变量描述统计(缺失率/唯一值/分布占比)、变量稳定性PSI、变量区分度IV,以及各个指标的筛选阈值等。关于这几类模型指标如何筛选,我们有内容将会详细讲解。
说完第一个最,再来谈谈第二个最:模型最容易犯错—模型的特征回溯。
先搞懂啥是特征回溯。因为模型是在现在的时间点开发的,而回溯特征是在样本设计阶段之后的过程,所以常常需要追溯到它历史数据发生违约前的时间点,这样的特征才是有效特征。
既然存在数据回溯,就会发生数据穿越问题。所谓的数据穿越就是常常说的,用带有y特征的x去预测y(俗称用y预测x)这个内容也是很多做模型的同学,最常常容易犯的问题。举例说明,比如逾期次数,催收次数去预测逾期等。
那如何避免数据穿越呢?这里给大家提供常用的方法:
一点是观察点的使用(避免特征的统计时点出现在表现期)。
一般使用客户的三要素+观察点去进行回溯。特征的统计时点一定要在样本的观察点之前,否则就会出现数据穿越现象(借用客户未来的信息预测未来)。
更多详细内容,有兴趣的童鞋可关注:
编辑切换为居中
添加图片注释,不超过 140 字(可选)
...
~原创文章