金融領域最保守的一個環節——授信決策,正在被AI驅動的信用評分所改變。對於擁有豐富信用歷史且與銀行有長期往來的個人來說,這是一個漸進的變化。然而,對於薄檔案借款人和非正規經濟體系中的人來說,這可能會改變人生。他們終於可以被系統識別,而不是對系統隱形。本文討論了如何應用替代數據為缺乏傳統信用記錄的個人和小型企業創建基於AI的信用評分、當徵信局數據不可用時存在的不公平和偏見風險,以及監管機構推動為銀行服務不足人群的承保創建可解釋AI的努力。
傳統信用評級預設了某種金融存在。他們假設個人擁有銀行帳戶、正式金融產品,並且以前借過貸款或使用過信用卡。他們預設雇主以正式方式運營薪資系統,商家在經濟體系的可見部分——有記錄的部分——運營。實際上,世界上有很大一部分人並非如此。年輕人通常沒有貸款或信用卡。移民可能在原籍國擁有良好的信用背景,但在新國家卻一片空白。他們的大部分交易都是用現金或不向徵信局報告的數位平台完成的:零工工作者、街頭攤販、非正式店主,以及大量微型創業者。即使在有徵信局的地方,其覆蓋範圍也可能很淺或偏向城市、正式受僱的人群。對於放款人來說,這些申請人的徵信局檔案看起來是空白或幾乎空白的。由於風險團隊被訓練為信任徵信局數據,他們會出於謹慎而犯錯。結果是可預測的:拒絕率增加、額度縮減、價格提高,或完全被排除。
這些借款人不一定風險更高;只是系統對實際表徵他們財務生活的信號充耳不聞、視而不見。在這裡應用AI進行信用評分的基本概念很簡單。當徵信局統計數據缺乏或過於稀疏時,尋找其他地方。現代生活中有許多數位足跡。當這些足跡以負責任的方式在徵得同意後被收集,並轉換為更有組織的信號時,它們可以透露很多關於一個人的穩定性、收入潛力和還款可能性的資訊。第一個也是最有價值的來源通常是電信數據。行動營運商了解某人如何定期充值預付餘額、他們是否多年使用同一號碼還是頻繁更換、他們的活動是穩定還是無規律,以及他們是否購買相同大小的數據包。與使用率下降或波動的人相比,長期保持一個號碼、定期充值並表現出一致使用模式的人,通常更深入地融入社區,行為也更一致。是否具有穩定性與信用風險降低相關。
另一個有力來源是電子商務和數位平台數據。網約車司機的徵信局檔案可能包含的資訊很少,但平台可以獲取行程次數、每週收入、取消數據、客戶評價和司機服務時長。作為市場賣家的微型商家留下了完成訂單、退款、投訴、缺貨和增長模式的歷史記錄。對於非正規企業,平台數據可以用作最接近官方財務報表的等價物。接下來是銀行帳戶、數位錢包和開放銀行API現金流數據。儘管借款人可能缺乏長期信用歷史,但他或她往往也有一個帳戶,薪資、零工收入、匯款或業務收入會存入該帳戶。通過分析基於時間的流入和流出,放款人可以估計常規收入、其變動性、是否有緩衝,以及收入中已經分配給租金、水電費和現有債務等經常性支出的比例。對於銀行服務不足的借款人,現金流承保通常比過度依賴過往貸款的傳統評分卡更可靠。薪資和就業API提供了另一層資訊。
在雇主與薪資服務連接的情況下,放款人能夠確認就業狀況、每月收入、就業期限和薪酬變化。對於有多份兼職工作的人,這種綜合資訊將比一張薪資單更有資訊價值。最後,在正確使用的情況下,行為和設備級數據可以用來協助欺詐和風險評估。個人使用同一設備的時間長度、登入位置的規律性、他們在數月內如何使用應用程式,以及他們通常進行交易的時間,都可能提供真實性和穩定性的指標。這些信號應該謹慎處理以防止代理歧視,儘管它們可以提供有用的支持。所有這些來源的共同點在於,它們講述一個人的真實生活,他/她如何生活、如何賺錢和如何支付,即使很明顯他/她從未觸碰過信用卡。
\
這些其他數據來源密集且非結構化。電信日誌、平台事件、銀行交易和設備遙測的結構不同於傳統徵信局報告。它們嘈雜、多維度,並充滿特殊模式。在這一點上,AI,特別是現代機器學習,是必需的。常見的生命週期從數據聚合開始。放款人在數據保護法和客戶直接同意的條件下,可以獲取電信合作夥伴、開放銀行資訊流、薪資API和平台合作夥伴的數據。
他們將原始數據吸收到安全環境中並進行標準化。手機充值活動、錢包儲值和電子商務訂單被轉換為具有規則格式的時間序列。不必要的異常和重複項被消除,缺失值被處理。從中,數據科學家構建特徵。他們創建匯總變數,而不僅僅是將所有原始交易輸入模型:平均每月淨現金流;儲蓄為正的月份比例;對債權人無付款的最長連續期間;收入不足的月份;平台收入的增長或衰退;工作時間的變動性;每週位置的持續性。
這些屬性試圖將個人的經濟生活壓縮成模型可以消化的數字。梯度提升樹、隨機森林和神經網路是機器學習演算法,它們在結果已知的歷史數據上進行訓練。在信用評分的情況下,結果通常是借款人在特定時期內(例如六個月或十二個月)的違約情況。模型學習表明或多或少風險的特徵組合。在人工承保人中發現的模式,不會被人類辨別力識別出來,例如現金流波動性與平台服務年限之間的微妙互動。驗證至關重要。模型應用於未經訓練的數據,以確保其性能是真實的,而不是過度擬合的結果。
AUC、Gini係數和Kolmogorov–Smirnov統計量等指標用於衡量區別能力,而校準圖顯示預測機率是否與實際違約率相同。除了主要數據外,放款人還需要根據細分市場查看表現:信用新手與經驗豐富的借款人、各種職業、地區和收入區間。部署後,模型將即時對新申請人進行評分,並在幾秒鐘內提供回應。流程不能就此結束。統計數據隨時間變化,平台調整其政策,宏觀經濟也在演變。
\
:::tip 本文由Sanya Kapoor在HackerNoon's Business Blogging Program下作為新聞稿發布。
:::
\


