15天完成中國14億人口普查數據登記,如何做到的?

本文來源:澎湃新聞

微信id:thepapernews

澎湃新聞記者 張若婷

11月1日,第七次全國人口普查正式進入登記階段。

此次普查是我國首次使用電子化方式進行登記,由騰訊雲聯合企業微信提供雲計算、大數據等核心技術支持。

如何在短短15天內完成我國14億人口的普查數據登記?如何縮短登記時間同時保證數據安全?

澎湃新聞記者採訪了國家統計局工作人員與負責普查電子采集器技術開發的騰訊雲、企業微信相關人員。

騰訊政務雲副總裁王景田向記者介紹道,此次人口普查的技術方案利用了企業微信這一現成產品,同時把普查需要的特定數據審核關係架構在上面。

這就意味著,如果公眾選擇自主申報,那麼打開個人微信掃描普查員出示的二維碼即可。

而對於700萬入戶普查員來說,則可以把他們看成一個公司,在企業微信的框架基礎上,普查員將進行數據的電子化登記及加密上傳,實現「智能終端做普查」。

據介紹,我國第七次全國人口普查項目籌備於今年3月啟動。騰訊雲、企業微信相關員工與國家統計局工作人員合作,在新冠肺炎疫情期間完成了電子化的所有準備。

「我們應用了TDSQL和Tbase的數據庫產品,目前它們一起承接了每秒接近50萬次更新,這標誌著我國的國產數據庫技術完全可以滿足政府金融的數字需求,而且在任務量這麼大的極端情況下安全可靠。」王景田表示。

王景田稱,這一技術在研發實施的過程中,首先面臨著「人和戶要對應起來」的難題,這是一個複雜關係,也是時刻變動的關係,要把信息捕捉準不容易。

「項目開始後,我們發現我們對業務理解還是簡單了,登記的這15天里所有人員是流動的,比如一個人今年在北京,第二天又在深圳。」

他舉例稱,由於一個人在15天內可能在多個地點出現,其數據可能被多次重復登記,所以需要後期進行校驗,有一個「數據排重」的過程。

同時,在普查員完成登記後,要把數據間的邏輯關係搞清楚。例如普查員上門進行登記後,會發現家庭關係、父母子女關係、夫妻關係等多種社會關係。

這些關係在數據處理工作中意味著,每一個數據都需要經過700多條業務規則的校驗,這對整個系統來說是十分複雜的。

「大量的數據要收集上來,同時數據的更新和數據的查詢是互相交錯的,所以我們做了雙數據庫設計,一個數據庫專門用來做生產系統的處理,另一個數據庫用來查詢。」王景田說。

此前,北京市昌平區統計局副局長、區人口普查辦常務副主任王建華曾對澎湃新聞記者表示,入戶登記階段基本上是1個普查員負責一個普查小區,工作量在250到300人之間。

通過配置了「定制版」企業微信的Pad或手機電子采集器,普查員通過詢問戶主進行包括個人基本信息、住房、婚姻生育、死亡等情況的登記,再用電子采集器掃描、自動識別身份證號碼等信息,點擊上傳,一次入戶登記就完成了。

與2010年全國第六次人口普查的紙表入戶登記方式相比,電子采集的方式將登記時間縮小到了20分鐘以內,也很大程度上降低了後期數據錄入、處理的難度。

▲普查員電子采集器工作臺展示

在此前接受澎湃新聞記者專訪時,國家統計局副局長、國務院七人普領導小組辦公室主任李曉超曾表示,在數據傳輸過程中,這次普查採用互聯網雲技術、雲服務和雲應用部署,按照國家網絡安全三級等保的標準進行安全管理。

同時移動端和服務器端採取了嚴密的數據加密和脫敏技術,數據傳輸過程全程加密,保證公民個人信息不在互聯網通道泄露和落地,確保公民個人信息的安全。

王景田對於數據傳輸過程中的安全保護進一步介紹道,數據采集之後,從留存本地到鏈路過程中全部有加密程序。

同時,數據采集後將直接到達統計局的數據中心,中間沒有任何節點。

他表示,保護個人隱私,一直是移動互聯網業務拓展過程中很重要的方面,截止到目前,此次人口普查的登記工作中還沒有發現出過數據安全問題。

值得注意的是,基於移動端的電子化普查手段,不僅是我國普查工作的一個技術革命,同時也引領了國際上普查手段的技術進步。

目前,國外的人口普查大多是基於PC端的,但我國此次採用的移動化終端采集可以說是電子化普查的最新手段,因此在國際的普查數據采集方面都起到引領作用。

王景田稱,在15天的入戶普查登記結束後,將是數據整理、分析的過程,騰訊雲仍將對後期數據分析等環節獨家提供技術支持。

閱讀原文