金融における最も保守的な側面の一つである、誰かに信用を供与する決定が、AI駆動の信用スコアリングによって変革されています。これは、豊富な信用履歴を持ち、長期間銀行と取引してきた個人にとっては段階的な変化です。しかし、信用履歴の乏しい借り手やインフォーマル経済に属する人々にとっては、人生を変える可能性があります。彼らは、システムから見えない存在であることから、ついに検出されるようになります。本記事では、従来の信用記録を持たない個人や中小企業のためにAIベースの信用スコアを作成するための代替データの応用、信用情報機関のデータが利用できない場合の不公平性とバイアスのリスク、そして銀行口座を持たない人々の引受における説明可能なAIを作成するための規制の取り組みについて論じます。
従来の信用格付けは、ある種の金融的存在を前提としています。個人が銀行口座、正式な金融商品を持ち、以前にローンを借りたりクレジットカードを使用したりしたことがあると想定しています。また、雇用主が正式な方法で給与を支払い、加盟店が経済の可視化された部分、つまり文書化された部分で活動していることを前提としています。実際には、世界の膨大な割合がそうではありません。若年成人は、しばしばローンやカードを持っていません。移民は、出身国では良好な信用背景を持っていても、新しい国では何も持っていない可能性があります。彼らの取引のほとんどは、現金または信用情報機関に報告しないデジタルプラットフォームで行われます:ギグワーカー、露店商、非公式な店主、そして多数の零細起業家です。信用情報機関が存在する場合でも、その対象範囲は表面的であったり、都市部の正式雇用者に偏っている可能性があります。このような申請者の信用情報機関ファイルは、貸し手にとって空白またはほぼ空白に見えます。リスクチームは信用情報機関のデータを信頼するように訓練されているため、慎重さを優先して誤りを犯します。結果は予測可能です:却下の増加、限度額の縮小、価格の上昇、または完全な排除です。
これらの借り手は必ずしもリスクが高いわけではありません。システムが、実際に彼らの金融生活を特徴づけるシグナルに対して聞こえず、見えていないだけです。ここでのAIの信用スコアリングへの応用の基本概念は簡単です。信用情報機関の統計が不足しているか、あまりにも乏しい場合は、他の場所を探します。現代の生活には数多くのデジタルフットプリントがあります。このようなフットプリントが同意を得て責任ある方法で収集され、より組織化されたシグナルに変換されると、人の安定性、収入の可能性、返済の可能性について多くを語ることができます。最初の最も価値のある情報源の一つは、しばしば通信データです。携帯電話事業者は、誰かが定期的にプリペイド残高をどのように補充するか、何年も同じ番号を使用しているか頻繁に変更しているか、活動が安定しているか不規則か、同じサイズのデータパックを取得しているかを理解しています。長期間にわたって一つの番号を保持し、番号をリチャージし、一貫した利用パターンを示す個人は、一般的に、利用をやめたり変動したりする人と比較して、コミュニティ内により深く組み込まれ、行動においてより一貫しています。安定性があるかどうかは、信用リスクの低下と関連しています。
もう一つの強力な情報源は、Eコマースとデジタルプラットフォームからのデータです。配車サービスのドライバーの信用情報機関ファイルにはほとんど含まれていませんが、プラットフォームは乗車回数、週ごとの収入、キャンセルデータ、顧客レビュー、ドライバーの勤続期間にアクセスできます。マーケットプレイスの販売者としての零細加盟店は、完了した注文、行われた返金、提起された苦情、在庫切れ、成長パターンの履歴を残します。非公式ビジネスの場合、プラットフォームデータは公式の財務諸表に最も近い同等物として使用できます。次に、銀行口座、デジタルウォレット、オープンバンキングAPIのキャッシュフローデータがあります。借り手は長い信用履歴を欠いているかもしれませんが、給与、ギグ収入、送金、またはビジネス収益が入金される口座を持っている傾向があります。時間ベースの入金と出金の分析を通じて、貸し手は共通の収入、その変動性、バッファーがあるかどうか、そして収入のどの部分がすでに家賃、光熱費、既存の債務などの定期的な費用に割り当てられているかを推定できます。銀行口座を持たない借り手の場合、キャッシュフローによる引受は、過去のローンに大きく依存する従来のスコアカードよりもしばしば信頼性が高くなります。もう一つの層は、給与および雇用APIによって提供されます。
雇用主が給与サービスに接続されている状況では、貸し手は雇用、月収、雇用期間、および報酬の変更を確認できます。複数のパートタイムの仕事を持っている人にとって、この複合イメージは一枚の給与明細よりもはるかに有益です。最後に、適切に使用すれば、行動およびデバイスレベルのデータは、不正行為とリスク推定の両方を支援するために使用できます。個人が同じデバイスを使用している期間、ログイン場所の規則性、数ヶ月にわたるアプリの使用方法、および通常取引を行う時間帯は、真正性と安定性の指標を提供する可能性があります。これらのシグナルは、代理差別を防ぐために慎重に扱う必要がありますが、有用なサポートとなり得ます。これらすべての情報源は、人の実生活、どのように生活し、どのように稼ぎ、支払うかを語るという事実によって結びついています。たとえその人が人生でクレジットカードに指を触れたことがないことが明らかであっても。
\
これらの他のデータソースは密集しており、非構造化されています。通信ログ、プラットフォームイベント、銀行取引、デバイステレメトリーの構造は、従来の信用情報機関レポートのそれではありません。それらは騒々しく、多次元的で、特異なパターンで満ちています。この時点で、AI、特に最新の機械学習が必要です。一般的なライフサイクルは、データの集約から始まります。貸し手は、データ保護法および顧客の直接の同意を条件として、通信パートナー、オープンバンキングフィード、給与API、およびプラットフォームパートナーにアクセスできます。
彼らは生データを安全な環境に吸収し、正規化します。電話リチャージ活動、ウォレットクレジット、およびEコマース注文は、定期的なフォーマットを持つ時系列に変換されます。不要な異常と重複が排除され、欠損値が処理されます。これから、データサイエンティストによって特徴が構築されます。彼らは、すべての生の取引をモデルに単に供給するのではなく、要約変数を作成します:月平均純キャッシュフロー;貯蓄がプラスである月の割合;債権者への支払いがない最長の連続期間;収入不足の月;プラットフォーム収益の成長または減衰;労働時間の変動性;毎週の場所の永続性。
これらの属性は、個人の経済生活をモデルが消化できる数値に圧縮しようとしています。勾配ブースティングツリー、ランダムフォレスト、ニューラルネットワークは、結果がすでに既知である過去のデータでトレーニングされる機械学習アルゴリズムです。信用スコアリングの場合、結果は通常、6ヶ月または12ヶ月などの指定された期間にわたる借り手による債務不履行です。モデルは、より多いまたは少ないリスクを示す特徴の組み合わせを学習します。人間の引受担当者の間で見つかったパターンは、人間の洞察力では特定されなかったでしょう。キャッシュフローのボラティリティとプラットフォーム在籍期間との間の小さな相互作用のように。検証は重要です。モデルは、トレーニングされていないデータに適用され、そのパフォーマンスが実際のものであり、過学習の結果ではないことが確認されます。
AUC、ジニ係数、コルモゴロフ-スミルノフ統計などの指標が差別力を測定するために使用され、一方、キャリブレーションプロットは、予測される確率が実際のデフォルト率と同一であるかどうかを示します。見出しの数字に加えて、貸し手はセグメントに基づくパフォーマンスを見る必要があります:信用取引が初めての借り手と経験豊富な借り手、さまざまな職業、地域、所得帯。展開すると、モデルは新しい申請者をその場で評価し、数秒以内に応答が提供されます。プロセスはそこで終わることはできません。統計は時間とともに変化し、プラットフォームはポリシーを進化させ、マクロ経済は進化します。
\
:::tip この記事は、Sanya KapoorによってHackerNoonのBusiness Blogging Programの下でリリースとして配信されました。
:::
\



