「徵信系統」正被地方政府和企業濫用?中國官方可能開始規範:徵信不是超級警察

本文來源:財新網

本文為財經媒體《財新網》發表的文章,作者署名是穆長春。

穆長春為中國人民銀行數字貨幣研究所所長、支付司副司長

「你答應了我上個周五晚上請我吃飯,可你沒請,你言而無信!」

「你當初追我的時候答應過不抽煙,可你不守信用!」

又如一個人開車闖了紅燈,不遵守交通規則,被開了罰單。

這算不算失信?

類似這種數據能不能當作信用數據或征信數據?

近日,中共中央、國務院發布支持民營企業的28條意見,其中明確提出「要進一步規範失信聯合懲戒對象納入標準和程序,建立完善信用修復機制和異議制度,規範信用核查和聯合懲戒」。

中央文件發出了糾偏的信號,意味著目前無限制擴大化的失信聯合懲戒措施,將受到規制。

百行征信成立時,人民銀行領導取這個名字之意,來自於周敦頤《通書》:「誠,五常之本,百行之源也。」

那麽這個誠或者征信,到底是什麼意思?

要回答這個問題,先來看什麼是征信。

國際金融公司給過一個定義,Credit reporting systems are essential to creating sound financial infrastructures that facilitate lending and help expand access to credit to a significant share of individuals,microfinance, and small and medium enterprises. Also, they help satisfy lenders’need for accurate, credible information that reduces the risk of lending and the cost of loan losses。

(征信報告對於建立健全的金融基礎設施是至關重要的,這些基礎設施能夠促進貸款,並擴大很大一部分個人和小微企業獲得信貸的渠道。它們也有助於滿足貸款人對準確、可信信息的需求,從而降低貸款風險和貸款損失成本。)

中國人民銀行征信中心對征信給出的定義,是指對企業、事業單位等組織的信用信息和個人的信用信息進行采集、整理、保存、加工,並向信息使用者提供的活動。

而這裡說的信用信息,特指在交易的一方承諾未來償還的前提下,另一方為其提供商品或服務的行為,是隨著商品流轉與貨幣流轉相分離,商品運動與貨幣運動時空分離而產生的。

可見,征信最重要的目的是落在經濟層面上,是用於預測一個人在非即付並無抵押的經濟活動中是否守約。

需要強調的是,征信系統也是金融基礎設施的一部分,是一個公共產品,有很強的外部性,直接影響社會大眾的隱私保護、信貸公平性等公共利益。

應該本著「最少、必要」的原則進行信息采集、保存和加工,這樣才符合公共產品的要求。

通俗的說,個人信用數據基本上指的就是借債還錢的數據,而征信就是減少有人借錢不還的風險,同時也幫助有還錢習慣的人順利地借錢。

反過來說,征信不是超級警察,不能管大家的私生活,也不是為了評選社會道德楷模。

信用數據的加工,不管是原始的征信報告,還是信用評分,還是別的各種創新產品,都要停留在個人金融信用領域,不應過界。

不要把個人征信這個事兒搞得像是非要算出來誰是好人一樣,沒有人有這個權利。

大數據的推導結果是相關關係,並非因果關係

什麼是大數據(big data)?

大數據是指無法在一定時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。

大數據就是巨量數據集合,包括結構化、半結構化和非結構化數據。

其中,非結構化數據越來越成為數據的主要部分。

因此,大數據無法用單機進行處理,必須依托雲計算進行分散式處理。

大數據分析是將實時數據流分析和歷史相關數據相結合,然後分析並發現其中隱藏的模式、相關性、趨勢、偏好等等,並建立所需的數學模型,就是找規律,並運用從過去數據中得到的規律,來預測未來。

需要注意的是,大數據分析模型顯示的是數據相關關係,並不是因果關係 。

這兩者有何區別?

舉例而言:有人收集了一年內冰激淋銷量與溺水死亡人數的大量數據,發現冰激淋銷量高的月份裏,溺水死亡的人數就多;冰激淋賣的不好的月份裏,溺水死亡的人就少。

這能不能得出結論:為了減少溺水的人數,這些月份裏不要賣冰激淋了?

大家都知道:絕對不行!這是因為,冰激淋銷量和溺水死亡人數的關係, 只是相關關係 ,並不是因果關係!

那麽大數據分析到底能不能應用在征信上?

是李逵還是李鬼?

根據前述,「個人信用數據基本上是指借債還錢的數據」,從性質上來說,征信數據必須是與合同、契約有關的因果關係數據。

如果在征信模型中應用大數據分析,需要把一個人方方面面的信息都收集起來,包括本人信息、生活習慣、社交關係等等,大而全、細而精,恨不得無孔不入、挖祖宗三代,然後對大量的相關數據進行分析,來找到做信貸決策的模型。

但需要強調的是,這是相關關係,不是因果關係;以大數據分析建立的征信模型並不符合金融基礎設施的信息收集原則!

而且這些非金融信息的行為數據,既不能用於分析一個人的還款意願、也不能用於判斷借款人的償還能力。

再比如,一個人闖了紅燈,不遵守交通規則,這個數據算不算信用數據?

如前所述,征信數據用於預測一個人在非即付並無抵押的經濟活動中是否守約。

由於這個闖紅燈的人之前並沒有向任何人承諾遵守交通規則,並不能算失信;同時,這個行為數據與經濟活動無關。

所以,開車闖紅燈可以開罰單扣分,走路闖紅燈可以罰款,幫助協警管理交通,但這種數據不能用於征信!

又有人說,「通過我們對各種大數據的研究,我們發現,很多看起來與信用沒關係的事件之間,是存在著關聯的。」按他這個邏輯,這不是征信數據,屬於大數據。

假如根據大數據分析,有可能發現愛闖紅燈的人,還款的信用表現確實不怎麽樣,但這只能證明兩者的相關關係,而不是因果關係。

因為如果在這個愛闖紅燈的人每天必經路口全修上立交橋,他再也不用闖紅燈了,那麽,他的信用分或者信用表現就會因此提高。

而如果銀行據此進行信貸決策,貸款就可能會打水漂。

正像冰淇淋和溺水死亡率的例子一樣,就算其中存在強相關性,也不能拿闖紅燈的數據去判斷一個人的信用,更不能用於征信。

同樣,如果一個人開車闖紅燈或超速,吃了罰單,交通局再三催促也不交罰款,甚至這一記錄被移交給催債公司。這個數據算不算信用記錄?

大多數人覺得這個算,比如美國征信局就收集這個數據。

但準確地說,美國征信局曾經收集過這些闖紅燈的數據,那些不交罰款的司機的信用評分會下降。

但是2016 年 6 月,美國三大征信局和 31 個州的檢察長們達成庭外和解,個人征信機構不得收集任何與合同或協議無關的付款信息,包括罰款、罰單等數據。

因為征信機構在收集這些闖紅燈的行為數據時,數據質量可能存在問題,比如拍照機器誤讀、數據不準、缺乏證據等,這違反了消費者保護法中關於行業欺騙和不公平操作的有關條款,將面臨整頓和600萬美元的罰款。

而且,前述和解協議的效力是可以回溯的,就是說征信機構之前收集的那些記錄都將刪除。

這個和解協議對征信業的影響是深遠的。對於征信機構來說,權力受到約束,而消費者的征信權益則受到了保護。

再舉個例子,超級網購的大買家和「信用好」這兩者是否存在相關性,這還需要數據驗證。

但可以確定的是,這兩者之間根本談不上因果關係。

這不僅不符合征信原則,還對無網購行為的消費者和其他網購平台的消費者造成了歧視。

如果僅僅因為闖紅燈或者沒有網購被剝奪借貸權利,就如同要降低溺水死亡率而禁止銷售冰淇淋一樣可笑,老百姓的征信權益因此受到侵害。

所以說,大數據分析用於征信是有邊界的,因為要保護消費者權益,反對不公平競爭。

信用評分怎麽來的?

一個人在征信機構裏的數據是很多的,信用報告內容很豐富,包含了這個人在過去幾年的信用記錄,審貸人員從頭到尾看一遍要花不少時間。

如果兩個審貸人員去看同一個申請人的信用記錄,就算他們是雙胞胎,也很有可能會由於個人的經驗和主觀判斷不同而得出不一樣的決定。

所以,單純用信用報告來做決定,既不能達到審批標準的一致性,也無法提高效率。

畢竟個人信用產品的申請人數目特別大,信貸審核成本也會無法承受。

於是,信用評分閃亮登場!

信用評分,指的是征信機構在收集了數據以後,通過對信用記錄數據的清洗、加工和分析,輸入到數學模型裏得到的一個非常直觀的分數。

根據傳統習慣,分數越高越好,高分表示信用風險低。

分數的範圍是可以事先界定的,蘿蔔青菜,各有所愛,有人喜歡百分制,有人喜歡 300-900 這個範圍。

信用評分模型是怎麽得來的?首先,巧婦難為無米之炊,做飯需要原材料。開發數學模型的原材料,就是信用數據。

一個人的信用數據有很多項,比如:這個人有幾張信用卡、信用卡的最早開卡日期等很多「變數」。

在開發數學模型的時候,不僅僅會用收集來的變數,還會根據已有數據再加工出來一些變數。

比如:最早的信用卡開卡日期距今天的天數等。至少涉及上千個變數。

接下來,數學家們要決定需要開發多少個數學模型。舉個例子,信用汙點嚴重的、輕微的和沒有信用汙點的就需要分開建模;信用歷史比較長、剛有信用記錄的菜鳥,也需要分開建模。

確定好建模型對象和建模數量之後,數學家要確定模型變數和參數。

他們不會把所有的變數都放進模型,並不是因為算不過來,而是因為變數之間的關係比較復雜,有的變數之間互相干擾。

也有的變數需要進一步考察再決定,比如,如果一個人的信用記錄在一段時間內被查詢了很多次,說明這個人可能最近很缺錢,是比較負面的信息,會帶來信用評分的下降;但是在進一步考察後,應剔除來自招聘單位的查詢,因為招聘單位查個人信用的目的並不是要給他貸款。

此外,有些變數值需要做組合,比如上個月實際還款金額占應還款金額的百分比,就需要分成從 0 到 100%之間好幾檔,而不是直接用百分比。

這種組合分檔是為了讓使模型更加穩健,不至於因為一點小變化帶來分數的大幅度變動。最終進入到一個模型裏的變數在 10-20 個之間。

建好一個數學模型,把各種參數和模型使用的條件都輸入到電腦系統裏,就像做了一個「月光寶盒」。

根據個人情況選定適用模型,算出來一個分數。

金融機構根據分數的高低來決定是不是貸款,收多少利息,貸款多長期限等。

究竟哪些因素是信用評分模型中最重要的,是不是網購時多買點東西就能改變我們的信用評分呢?

再舉個例子,根據公開信息,著名的 FICO 評分是這樣算的:35%的信息來源是個人還款記錄,30%是欠款金額,15%是信用歷史長度,10%是信用產品類型,10%是近期內開始使用的信用產品。

怎麽來理解FICO 評分中信息來源的構成?

對信用評分的正確解讀是:對那些與貸款申請人有類似信貸行為表現的人,根據按時還款比例的高低,類推該申請人將來按時還款的可能性高低。

請注意,信用評分高的張三不一定會按時還錢;而信用評分低的李四也不一定就一定不會按時還錢。

只能說,信用分高的張三,將來按時還錢的可能性高,信用分低的李四,將來按時還錢的可能性低。

於是,銀行就設個分數線,低於這個分數線的人都不給貸款。

同理,銀行的行長也不一定信用分就高,因為信用分從來就不是近水樓台先得月的事。

所以信用分是個歷史表現的標尺,相對穩定,不會大起大落。

所謂「青山易改,本性難移」,要提高自己的信用分,要靠多年的表現好換來的。

如果說一個征信公司的信用分,可以靠在一個購物平台血拼一個月暴漲,這不叫信用分,這是網購積分。

如何使用信用評分

《西遊記》裏有一個故事,唐僧師徒過平頂山,遇到金角、銀角大王拿著紫金葫蘆和凈瓶,把悟空裝了進去。後來悟空從裡面出來,用一個假葫蘆換了妖怪的寶貝。

那麽信用評分是不是個無所不能的寶葫蘆呢?

最近幾年,中國的一些機構發明了信用評分的新用途:

比如信用評分高的人可以走快速安檢通道;

信用評分高的人可以快速拿到某國簽證;

信用評分還被用於征婚平台,說評分高的人肯定會是個浪漫的人,可以托付終身。

但是這真的靠譜嗎?

通常,數學模型的使用原則是,在什麼數據條件上開發出來的模型,就在什麼數據條件下使用。

拿上面的例子說,即使模型采集了安檢的歷史數據,放在評分模型裏,也不能完全決定是否此人在未來可以走快速安檢通道,更何況信用評分並不是安全評分。

假如這個信用評分高的人是個恐怖分子呢?

而前述諸多怪現象,無非是為了誇大其信用評分產品的作用,屬於誤導消費者的娛樂化營銷,甚至侵犯消費者的權益。

首先,信用評分這個寶貝不是隨便一個路人甲拿來就能用的,使用者主要是信用產品的提供者,比如銀行、信貸公司等。

這些放貸機構通常在四個方面使用信用評分。

第一個方面是信貸決策。

比如,銀行收到信用卡申請表之後,去征信局查申請人的信用報告,然後做出是否發卡的決定。

銀行如果希望獲得風險很低的客戶,就設定一個較高的征信分及格線,如果銀行願意多承擔一些風險,就可以降低及格線。

這裡要注意了,根據征信業的最佳實踐,對金融機構依據信用評分做出的不利決策,貸款申請人有知情權。

如果金融機構拒絕貸款申請,要給出原因,就是要把模型裏丟分最多的變數內容告知申請人。

實踐中,征信局在提供信用評分的同時,會提供幾個代碼,表示申請人丟分多的評分項,銀行會把這些代碼所代表的含義翻譯成大白話告訴申請人。

比如:「你最近開了太多新信用卡」,但不能僅僅敷衍說評分不及格。

此外,銀行還會書面告訴申請人:如果覺得告知信息不對,可以去征信局申訴。

另外,拒貸的原因不能與性別、年齡、種族、出生地等有關,這可能涉及歧視。

比方說,銀行不能因為有人姓穆罕默德而推測這個人的種族或宗教,然後拒絕信貸申請。換句話說這些因素也不能用於征信評分。

第二個方面,是判定現有客戶整體信用風險。

金融機構一般只知道客戶在本行的信用狀況,要了解整體信用風險,一種方法是查詢客戶的整體信用報告,但價格貴,也看不過來。

比較簡單的方法是定期查詢現有客戶的信用評分,並重點關注評分快速下降的客戶。因為這種客戶很可能拖欠其他銀行的錢了。

第三個方面,是選擇催收方式。

對於有拖欠行為的客戶,銀行要根據其信用評分決定是自己花時間、精力催收,還是按分數高低定好價格,把貸款轉賣給催債公司。

第四個方面,是市場營銷。

這種應用比較復雜,也容易造成誤解。

舉個例子,一家放貸機構,推出了一個信貸產品,目標客戶是信用評分 600-700 分之間的中等風險的人。

但根據消費者保護規定,征信局不能直接提供符合條件的客戶名單,放貸機構只能委托征信局把促銷信息發給符合條件的客戶。這個過程要有第三方監督,以確保合規。

除去以上四個方面,信用評分一般來說是不能用於其他領域的。

也就是說,信用評分並不是什麼都還能做的「寶葫蘆」。

比如,信用評分不能用於招聘,這種做法會讓目前沒錢還債的人找不到工作,會因此被截斷收入來源,相當於遭到雙重懲罰。

可見,用大數據做征信就像「從公牛身上擠奶」,是否能得出準確的結果值得商榷。

但是,這些大數據可以用來做內部風控,由於不屬於公共產品範疇,只要能夠保護消費者權益,不造成隱私保護問題和信貸歧視,可以根據企業自身的決策來決定。

閱讀原文