「北航庄福振分享」NN模型在金融風控場景中的應用

2022年07月07日18:34:13 科技 1571

IEEE x ATEC

IEEE x ATEC科技思享會是由專業技術學會IEEE與前沿科技探索社區ATEC聯合主辦的技術沙龍。邀請行業專家學者分享前沿探索和技術實踐，助力數字化發展。

在社會數字化進程中，隨着網絡化、智能化服務的不斷深入，伴隨服務衍生出的各類風險不容忽視。本期分享會的主題是《網絡欺詐的風險與對抗》。五位嘉賓將從不同的技術領域和觀察視角，圍繞網絡欺詐場景下的風險及對抗技術展開分享。

以下是庄福振研究員的演講，《NN模型在金融風控場景中的應用》。

演講嘉賓 | 庄福振

北京航空航天大學人工智能研究院研究員

ATEC科技精英賽高級諮詢委員會專家

《NN模型在金融風控場景中的應用》

很高興能來參加IEEE x ATEC科技思享會。我今天分享的題目是《NN模型在金融風控場景中的應用》。我今天的演講內容主要分成三個部分：背景，研究工作，我們的一點總結。

眾所周知，在過去十幾年中，第三方在線支付市場發展迅速。同時，與在線交易相關的犯罪活動也大大增加，並且這種交易欺詐行為嚴重威脅了在線支付行業。2016年，互聯網犯罪投訴中心就收到了近380萬投訴，導致超過13億的財務損失。在線交易欺詐中，最常見的是賬戶被盜以及卡被盜。賬戶被盜指的是未經授權的賬戶操作或欺詐者在控制了某人的付款賬戶後進行的交易，通常由於憑證泄露造成的。卡被盜表示某人卡的相關信息，例如卡號、賬單信息等已被欺詐者獲取並用於未經授權的一些收費。

下面我分享一下我們和螞蟻集團聯合做的一些研究工作。主要有三個工作，一個是基於神經層級分解機的用戶事件序列分析（SIGIR 2020），第二個是基於雙重重要性感知分解機的欺詐檢測 (AAAI 2021)，第三個是我們在可解釋方面提出的利用層級可解釋網絡建模用戶行為序列的跨領域欺詐檢測 (WWW 2020)。

一、基於神經層級分解機的用戶事件序列分析

首先是基於神經層級分解機的用戶事件序列分析。在支付業務中，每個人都從註冊系統、登錄系統，再到把自己選擇的商品放入購物車，最後做交易或者付款。根據用戶的賬戶動態，我們可以判定下次付款到底是不是一個欺詐行為。用戶的賬戶動態有豐富的數據序列信息可供利用。單純只關注特徵組合的工作或者單純關注序列信息的工作，都只能從單獨的角度去建模用戶事件序列行為，每個事件僅通過簡單的嵌入、拼接或者全連接，而難以獲得更好的事件表示。我們希望設計一個層次化的模型同時結合這兩方面進行建模，從而對欺詐檢測進行分析。

右圖有兩個案例，一個是在某網站上的電影點評記錄（如圖1），同樣也是一個用戶行為序列，這裏面最大的一個貢獻是怎麼去做這個事件的表示。我們剛才看到，每個事件實際上都包含了很多的特徵。

如圖2所示，一個事件的特徵包含X1到Xn這麼多個特徵。我們在用戶的事件序列里，包括e1到eT的T個事件，每個事件在場景裏面有56個特徵，包括50個類別型特徵和6個數字型特徵。事件內部的特徵之間的組合實際上更具判別性地來判定、預測欺詐檢驗。例如在1分鐘之內進行的跨國交易，我們就很容易判斷這是一筆盜卡行為。我們希望用FM模型去建模這種特徵組合關係。FM是一種在嵌入空間中自動進行二階特徵組合的模型。看一下（圖2）事件的表示：vi跟vj是兩個特徵向量化的空間表示，它是兩兩特徵之間的一個組合，Xi跟Xj實際上是一個權重的表示。最後我們會得到一個事件的表示，從特徵交互得到一個事件表示。

當這個事件表示完後，我們希望得到一個比較好的序列表示，即我們對這個序列進行提取一個比較好的特徵表示。每個用戶序列實際上包含多個事件，兩個事件組合發生，對欺詐行為檢測更具有判別性。同樣的，我們也希望去考慮事件之間的序列的影響。比如說我們先做A事件再做B事件，可能會導致欺詐的可能性變大。我們希望我們的模型能夠去建模這種序列的影響。從剛才的角度出發，事件組合的建模用S來表示，同樣也是因子分解機去做的。不同事件兩兩組合，qi和qj也是它的一個權重。對於序列影響，我們從兩方面去考慮，一是從事件自身的重要性去考慮，它有一個自注意力機制來表示就是Sself；還有一個是用RNN網絡來去建模事件的歷史序列行為信息，也就是雙向的LSTM去建模。最後，我們可得出這個序列是由三部分組成：事件的組合；事件的自注意力機制；事件本身具有的一個特徵。把三者組合在一起得到整體的序列表示。

右邊這張圖是我們提出的一個框架，也叫做神經層級分解機。從底部開始，是事件的特徵。我們對這個事件特徵進行編碼後，就可以得到這個事件的表示，從而學習這個序列的表示。提取後，可以看到模型做一個多層感知機的輸出。我們同樣可以在這個Feature上面去做一個線性的分類。最終我們把這兩部分當成一個Sigmoid的一個參數，得到0到1之間的輸出，最終的一個優化函數其實是一個交叉熵的損失函數，N是對所有有標記的數據進行學習。這是我們的模型的一個框架。

在這個實驗中，我們利用工業界裏面的一個真實的數據集。例如在一個電商平台上，我們從該平台上面拿到了三個地域的數據集。這個數據集正例是欺詐行為，負例是正常的交易行為，可以看到正常交易行為和異常的欺詐行為，相差非常大、類別非常不平衡。我們的公開數據集上、電影上的數據集也做了一個實驗。在基準的算法比較上，我們採用了比較先進的一些算法，比如W&D（Wide & deep）寬度和深度，還有NFM、DeepFM、xDeepFM，以及M3利用混合模型同時學習序列的長短期依賴的模型。

我們的評價指標是採用真實工業場景裏面比較關注的低用戶打擾率時的召回率，即我們在給出結果時，希望對前面頭部的百分之多少的用戶打電話告訴他們這可能是一個欺詐行為。例如打1000個電話，這1000個應該都是有欺詐行為，即這個比例應該是越高越好的，因此我們採用的評價指標更關注於ROC曲線的頭部(FPR

從左下方這張圖，可以看到這種IP 的變化、還有包括其他的特徵值、字段的值的變化，會導致一些欺詐行為的發生。

二、基於雙重重要性感知分解機的欺詐檢測

基於雙重重要性感知的一個分解機用於欺詐檢測。在剛才第一個工作裏面，可以看到IP在不斷變化。我們需要把一個系列化的事件的某個值、某個字段的演變考慮進去。即同一字段值的演變和不同字段值的交互實際上是非常重要的，而現有的工作沒有同時關注到這兩點。因此，我們想設計一個DIFM模型同時結合這兩個方面。

我們同樣也是基於這個FM模型做了一個框架。首先，對於每個階段，我們也是通過FM模型去捕獲不同事件的兩兩之間的演變。可以看到Figure3這張圖，從棕色這個方向我們去考慮f1的特徵，是指它隨事件變化，我們去把它給建模出來，這就是我們新加的一個貢獻。到FM建模以後，我們又提出了一個Field Importance-aware這樣的一個感知模塊。用注意力機制去感知哪個字段的演變對我們的預測更加重要，我們又提出了一個叫重要性感知的模塊。另外一個方向的話，我們在前面針對每個事件，模型通過FM捕獲了不同字段值的兩兩交互特徵（圖中藍色部分），然後通過Event Importance-aware模塊利用注意力機制感知哪個事件更重要（圖中綠色部分）。最後我們再通過Field Importance-aware模塊和Event Importance-aware模塊得到的兩部分信息以及當前事件特徵輸出預測結果。可以看到這個模型是比較簡單而且實用的，我們在這個業務應用場景裏面，可以高效率而且效果比較好地在線上去部署，這個就是我們提出的第二個工作。

第二個工作的一些實驗結果，也是利用了第一個工作裏面的三個地域的數據集。我們在這個工作裏面又增加了一些精準算法，包括AFM，還有利用LSTM做欺詐檢測，還有包括用Latent Cross將上下文信息集成到RNN中，這個數據跟上一個工作的實驗數據是一樣的。

從這個結果可以看到，同樣我們是採用低用戶打擾率時的召回率去評價我們的實驗，可以看到最底下DIFM（我們的一個實驗結果），實驗結果大大優越所有的baseline，包括消融實驗，DIFM-α只考慮字段值演變，DIFM-β只考慮字段值交互，DIFM是兩個子模型的結合，DIFM也是優越於前面所有的比較算法，這就是我們提的一個又簡單又實用的算法。

在可解釋性方面的話，我們的模型還能夠提取到高風險的特徵和高風險的事件。從上面右邊這張圖可以看到藍色圓圈，每一次變化都會變成一個藍色圓圈，相對有一些改變。可以看到卡後面尾數落在每個區間，每一次的變化就會產生一個欺詐的行為，或者卡值的一個變化。還有包括IP的變化，我們都可以去把它catch出來。這就是我們提出來的、去顯示地建模這種一個字段值隨着事件、序列在變化的情況用於欺詐檢測，同樣也為可解釋提供了一個比較好的借鑒。眾所周知，在金融欺詐檢測裏面可解釋性是非常必要的，即你去告訴用戶此交易行為是一個欺詐行為時，你必須告訴他有哪些特徵可能違反了哪些規則，或者你的事件可能導致一些欺詐行為。可解釋性就變成了一個非常重要的工作。在接下來的這些工作里，希望我們也從可解釋性的角度去對整個過程，從特徵層面、從事件層面、也包括我們跨領域的層面去做可解釋性的層次模型。因此我們也提出利用層級可解釋性網絡來建模用戶行為序列的一個跨領域的欺詐檢測。

三、利用層級可解釋網絡建模用戶行為序列的跨領域欺詐檢測

Motivation的話，其實也比較簡單、比較直接。第一，前面我們知道了用戶行為序列是非常重要的。第二，我們希望考慮這種可解釋性對我們的業務的幫助。第三，這個電商平台在不同的地域新開展業務時，可能因數據量少而不能很好建模的情況下，我們希望從其他數據比較成熟或者模型比較成熟的平台中，把它遷移或借鑒過來，去建模一個跨領域的欺詐檢測模型。

我們提出了這種層次可解釋網絡。首先我們提出了一個特徵層面、事件層面的可解釋性網絡來對這個欺詐檢測。右邊的圖片是我們提出的一個框架，同樣的，前面是我們對這個特徵進行編碼。Field-level Extractor是對事件的表示。事件表示完之後，是對序列的表示。還有一個我們叫做Wide layer。Wide layer是單純用特徵去學的線性分類器，我們這邊串聯後用多層感知機來去做。這裏面的可解釋性就體現在從單領域的模型裏面有兩個可解釋，一個是哪些字段、哪些特徵是比較重要的，以及序列當中哪些歷史事件比較重要的。

對於每一步，第一個Look-up embedding，我們實際上是對這個特徵值進行一個向量的轉化。我們把這個轉化分為類別型的、數值型的轉化規則，採用這個式子去做轉化。Field-level Extractor是對事件的一個表示，前面的工作我們只考慮了即兩兩特徵之間的交互，顯示哪個特徵比較重要，我們加了一個wit，這個wi相當於是說針對這個特徵，在T時刻它的特徵的重要性的歸一化。對於事件，它同樣有一個事件重要性的表達式，也就是UT，UT就是下面的表達式。下面還有Wide layer對白名單進行學習，即我們用線性分析去學習，最後預測跟學習問題，我們同樣也是用MLP還有包括sigmoid函數，來把它映射到0跟1之間，用交叉熵來去學習整個學習問題，這個是L(θ)。

我們又提出一個遷移學習框架，剛才說到可能不同地域或者不同場景，數據有些是少的、有些是多的。我們希望由（數據）少的來幫助（數據）多的。我們把少的叫做Target Events，數據量多的叫做源領域或者Source Events。在這裡，我們希望去學到源領域和目標領域特有的一些知識，還有它們兩個共享的一些東西。我們希望這個Source可以共享一些知識去幫助Target學習及一些預測。從幾方面來考慮，在我們場景裏面，一個是Embedding策略、為什麼要提出Embedding策略、共享和你特有的行為序列的抽取，還有包括你的領域的注意力。也就是在一定程度上解釋說我這個領域幫助了我的Target問題、幫助了多少、我們怎麼去對齊不同領域之間的一個分佈，也就是Aligning Distributions。可解釋性就體現在Domain Attention的角度。

我們為什麼要提出這種Embedding策略？我們都知道由於不同地域的相同字段對應的取值可能不同，例如中國跟越南的消費字段、消費額不同，中國可能是0到100塊錢，而在越南可能就不是0到100塊錢。所以字段的取值可能是不一樣的，不同地域的用戶行為習慣可能不同，相同的提取器可能無法同時對兩個地域有效，所以將行為序列提取器也分為Domain-Specific和Domain-Shared。即我們把一些特定的或者是領域不變的一些特徵遷移過來，保持自身領域特有的一些東西。我們在這個領域的Attention上，把它也分成一個領域特有和領域共享的表示，即Shared和Specific兩個因子，計算公式如圖所示。在不同領域之間的分佈的對齊方面，我們知道傳統的對齊方法在我們的應用場景裏面是不適合的，因為在我們的場景里類別是極其不平衡的，即我們得到的這個正負類比例相差非常大。例如我們甚至可以是一比一萬，一萬條裏面可能只有一條是異常行為。我們去提出這種Class-aware，即類別感知的Euclidean Distance。從這個角度去講，我們計算這個領域距離時，是從類別上面去做的，即考慮不同類別的一個過程。

進一步，我們的遷移學習框架泛化成一個通用的遷移學習框架。從上圖的右圖可以看到：虛線的表示我們提出的是一個層次可解釋網絡，這是作為一個序列的提取器，即我們可以把這個虛線裏面的序列提取器換成其它的模型去作為事件的提取器。例如我們這個遷移模型，我們可以把其他的baseline作為我們的一個特殊情況納入到我們的遷移學習框架裏面。所以只需要定義好哪部分作為行為序列提取器，我們就可以去做這樣一個欺詐監測模型。

同樣的，我們在這個數據集上面也採用了某電商平台上面的數據集，此次我們在這個數據集上加了一個數據集比較少的情況，即它可能只有幾百、幾千的一個正例，負例可能十幾萬。同樣的，我們把數據最少的作為Target Events去做我們的實驗。對於bassline，我們同樣也是選擇W&D、NFM、LSTM4FD還有M3R這樣的Fraud baseline去做我們的基礎模型。我們先看一些單領域的實驗結果，也是採用低用戶打擾的召回率作為我們的評價指標。

可以看到這兩張圖，是在C1、C2、C3、C4這4個地域上的實驗結果，都比baseline要好很多，最後的豎線就是我們的模型結果。

我們同樣把我們的遷移學習框架用於所有base model上，即我們把剛才所有baseline的model序列行為提取器放到遷移學習框架里，把中間的虛線部分給替換掉。藍線是我們用了遷移學習框架後得到的一個結果。結果證明，在遷移學習後可以得到比較好的實驗結果。這個橫軸是表示我們採用數據的從少到多，如從一個星期作訓練數據到兩個星期三個星期……所以隨着訓練數據的增加，結果一般也是變好的。這個藍線，指我們先前的效果比原來要好很多。大概情況就是這樣。

從結果的可解性來看，可以看到從特徵層面，每一行的顏色越深、它的特徵越重要。可以看到有明顯的catch到我們重要性的一個特徵。從豎的Y軸上面看,深度越深事件越重要，我們可以catch到不同事件的重要性。下面可以看出Domain-Shared等於0.56，意思是說我們建立這個Target 模型，Shared部分貢獻的知識是56%，Target自己本身是44%。可以看到，我們從三個層面，從特徵的粒度到事件的力度然後再到屬性的力度，去做這樣一個可解釋。

我們提出的模型已經在該電商網站ATO（account takeover）場景落地，可提供賬戶交易風險分析，進行識別防控以及事件粒度/屬性粒度的權重值分析，輔助運營同學判斷還原風險路徑。我們提出的工作也上線進行了部署。

最後，我們總結一下，我們在合作過程當中，提出神經層次分解機對用戶事件序列進行分析，同時建模Field之間交互關係以及Field Value演化的欺詐檢測模型，提出通用的遷移學習可解釋框架，我們對檢測欺詐結果的可解釋。最後我們也進行了線上部署應用落地。現在已經應用得比較好，特別是在一些場景裏面把我們的算法結合到欺詐檢測的模塊裏面去。

我的分享就到這裡，非常感謝。

雷峰網