風控模型開發之兩」最」問題

做過模型的童鞋都知道,建模就是流水線的工種。在整個流水線中,我們梳理了有兩個模型"最"需要注意的內容,分別是"最關鍵"與「最容易犯錯"。這兩個問題自然也是各位新手建模童鞋,更應該了解清楚的內容。

最關鍵的一part,模型的特徵篩選;

最容易犯錯的一part,是模型的特徵回溯。

首先提到特徵,講得淺白點就是描述某個客觀事物的表象。比如風控模型使用的特徵,常常包含特徵有:徵信、消費支付、多頭借貸、設備類等特徵。

先說這裡的第一個"最",最關鍵的特徵篩選。目前,整體特徵篩選的流程如下:

編輯切換為居中

添加圖片注釋,不超過 140 字(可選)


俗話說:數據決定了模型的上限,而模型只是逼近這個上限。下圖表示為模型開發階段和模型上線調用階段的數據的使用邏輯。

編輯切換為居中

添加圖片注釋,不超過 140 字(可選)


在特徵篩選中,只要把握好了模型中最重要的幾類篩查指標就能做好80%的特徵篩選工作,比如變量描述統計(缺失率/唯一值/分佈佔比)、變量穩定性PSI、變量區分度IV,以及各個指標的篩選閾值等。關於這幾類模型指標如何篩選,我們有內容將會詳細講解。

說完第一個最,再來談談第二個最:模型最容易犯錯—模型的特徵回溯。

先搞懂啥是特徵回溯。因為模型是在現在的時間點開發的,而回溯特徵是在樣本設計階段之後的過程,所以常常需要追溯到它歷史數據發生違約前的時間點,這樣的特徵才是有效特徵。

既然存在數據回溯,就會發生數據穿越問題。所謂的數據穿越就是常常說的,用帶有y特徵的x去預測y(俗稱用y預測x)這個內容也是很多做模型的同學,最常常容易犯的問題。舉例說明,比如逾期次數,催收次數去預測逾期等。

那如何避免數據穿越呢?這裡給大家提供常用的方法:

一點是觀察點的使用(避免特徵的統計時點出現在表現期)。

一般使用客戶的三要素+觀察點去進行回溯。特徵的統計時點一定要在樣本的觀察點之前,否則就會出現數據穿越現象(借用客戶未來的信息預測未來)。

更多詳細內容,有興趣的童鞋可關註:

編輯切換為居中

添加圖片注釋,不超過 140 字(可選)

...

~原創文章