風控模型開發之兩」最」問題

2022年10月13日23:37:09 科技 1155

做過模型的童鞋都知道,建模就是流水線的工種。在整個流水線中,我們梳理了有兩個模型"最"需要注意的內容,分別是"最關鍵"與「最容易犯錯"。這兩個問題自然也是各位新手建模童鞋,更應該了解清楚的內容。

最關鍵的一part,模型的特徵篩選;

最容易犯錯的一part,是模型的特徵回溯。

首先提到特徵,講得淺白點就是描述某個客觀事物的表象。比如風控模型使用的特徵,常常包含特徵有:徵信、消費支付、多頭借貸、設備類等特徵。

先說這裡的第一個"最",最關鍵的特徵篩選。目前,整體特徵篩選的流程如下:

風控模型開發之兩」最」問題 - 天天要聞

編輯切換為居中

添加圖片注釋,不超過 140 字(可選)


俗話說:數據決定了模型的上限,而模型只是逼近這個上限。下圖表示為模型開發階段和模型上線調用階段的數據的使用邏輯。

風控模型開發之兩」最」問題 - 天天要聞

編輯切換為居中

添加圖片注釋,不超過 140 字(可選)


在特徵篩選中,只要把握好了模型中最重要的幾類篩查指標就能做好80%的特徵篩選工作,比如變數描述統計(缺失率/唯一值/分布佔比)、變數穩定性PSI、變數區分度IV,以及各個指標的篩選閾值等。關於這幾類模型指標如何篩選,我們有內容將會詳細講解。

說完第一個最,再來談談第二個最:模型最容易犯錯—模型的特徵回溯。

先搞懂啥是特徵回溯。因為模型是在現在的時間點開發的,而回溯特徵是在樣本設計階段之後的過程,所以常常需要追溯到它歷史數據發生違約前的時間點,這樣的特徵才是有效特徵。

既然存在數據回溯,就會發生數據穿越問題。所謂的數據穿越就是常常說的,用帶有y特徵的x去預測y(俗稱用y預測x)這個內容也是很多做模型的同學,最常常容易犯的問題。舉例說明,比如逾期次數,催收次數去預測逾期等。

那如何避免數據穿越呢?這裡給大家提供常用的方法:

一點是觀察點的使用(避免特徵的統計時點出現在表現期)。

一般使用客戶的三要素+觀察點去進行回溯。特徵的統計時點一定要在樣本的觀察點之前,否則就會出現數據穿越現象(借用客戶未來的信息預測未來)。

更多詳細內容,有興趣的童鞋可關註:

風控模型開發之兩」最」問題 - 天天要聞

編輯切換為居中

添加圖片注釋,不超過 140 字(可選)

...

~原創文章

科技分類資訊推薦

大愛之聲:HI與AI共舞,奏響未來創新華章 - 天天要聞

大愛之聲:HI與AI共舞,奏響未來創新華章

未來已悄然降臨,AI深度賦能,開啟全新時代篇章。當下,高階創新成為時代的最強音,迫切呼喚HI(人類智慧)與AI(人工智慧)展開戰略對話,實現和諧共生。HI憑藉其方向感、賦予的價值及導航般的價值觀,為創新之路指引方向;AI則以強大動力、驚人速
早期Prime Day蘋果熱銷好物 - 天天要聞

早期Prime Day蘋果熱銷好物

#夏日生活打開季#快速導讀Engadget 自 2004 年以來一直在消費科技評測領域處於領先地位,評測涵蓋了蘋果的筆記本電腦、智能手錶、平板電腦和智能手機。雖然蘋果產品性能卓越,但價格較高。
雷軍:沒有出紅米汽車的打算 小米汽車計劃2027年出海 - 天天要聞

雷軍:沒有出紅米汽車的打算 小米汽車計劃2027年出海

站長之家(ChinaZ.com)7月3日 消息:昨日晚間,小米董事長雷軍開啟返場直播活動,在直播過程中,雷軍不僅詳細介紹了小米YU7的訂單及交付情況,還積極回應了網友們的諸多提問。其中,網友們頗為關注的小米是否會推出紅米汽車這一問題,雷軍明確表示:「我們確實是沒有這樣的打算。」值得一提的是,此前Redmi品牌總經理王騰也...
雷軍自曝買Model Y:進行對標學習 希望小米汽車超越特斯拉 - 天天要聞

雷軍自曝買Model Y:進行對標學習 希望小米汽車超越特斯拉

站長之家(ChinaZ.com)7月3日 消息:昨晚的直播中,雷軍再次深情回顧了小米YU7開啟大訂後自己的內心感受,直言「我其實是愣住了」。當「3分鐘20萬訂單」這一驚人數據擺在眼前,不僅讓雷軍本人感到意外,更足以震撼全球汽車產業。要知道,創造這一輝煌成績的小米,進入汽車行業僅僅一年零三個月,這無疑創造了中國汽車工業的...