2023年8月3日,K8凱發信息(代碼:300588)副總裁、首席技術官張登博士,受邀出席由賽迪傳媒、大數據產業生態聯盟、《軟件和集成電路》雜志社聯合主辦的 “大數據與數字經濟大會暨2023(第八屆)中國大數據產業生態大會”,發表了題為《人工智能提升數據治理智能化水平》的演講。

K8凱發信息是全國領先的大數據智能應用服務提供商,深耕軟件信息服務和大數據應用行業已有三十年的歷史,積累了豐富的數據治理技術與落地經驗:建立了以智能識別預測、大數據建模、流程再造、智能物聯4大核心科技為支撐的“蓋婭”數字智能開放平臺,構建了集物聯感知、數據采集接入、數據治理、知識圖譜的構建、大數據建模分析、數據可視化等全鏈條的完整數據服務能力鏈,賦能數字政務、數字警務、數字產業等多個領域細分場景數字化轉型與效能提升。
會上,張登博士表示,數據治理貫穿數據全生命周期,是實現數據服務與應用的重要環節。在新的數據要素時代,特別是在數據計算、服務、應用和交易極大強化的情況下,數據治理的重要性不言而喻。不過,隨著大語言模型浪潮的到來,依托傳統數據中臺工具進行人工數據治理的方法不再奏效,而AI可為數據治理帶來全新的生產方式、生產效率以及數據產品形態和流通模式。并分享了K8凱發信息以AI技術提升元數據管理、主數據管理、數據標準管理、數據質量管理、數據安全和數據業務價值等方面的重要策略。
元數據管理:傳統是通過創建非結構化數據的搜索索引的方式,對非結構化數據的元數據進行采集,存在數據過載、不一致、不完整等問題。采用語音識別、圖像識別、文本分析等人工智能技術,可實現元數據的最初業務詞庫的構建,成為提取各類有價值的非結構化元數據的資源池。
主數據管理:主數據管理過程中常面臨著如何在數量龐大的數據項中識別主數據、如何建立統一的主數據標準等問題。人工智能自動識別主數據,在所有數據中篩選出頻繁出現或流動的數據,同時,快速確定主數據的可靠與可信數據來源,構建完整的主數據視圖,且采用機器學習、自然語言處理可建立重復數據識別的匹配規則,在識別字段重復的主數據之后,不進行自動合并,并確定與主數據相關的記錄,建立交叉引用關系。
數據標準管理:借助機器學習、自然語言處理技術,可以根據字段業務名快速整理出高頻詞根,將可能原本需要幾個月的工作在幾天內完成。同時,對業務字段名進行自然語言處理,精確分詞,根據詞根相似性將數據標準與元數據自動映射起來,讓這一方面不再是實施工程師的噩夢。
數據質量管理:數據質量是保證數據高效應用的基礎。機器學習可提取并識別存在的質量問題,從而制定有效的數據質量評估指標,最大化實現該指標下的數據質量的提升,同時,監督學習、深度學習也將實現對數據清洗和數據質量的效果評估,進而改善轉換規則和數據質量評估維度,并隨著數據量和業務期望的逐漸變化,使數據質量提升方案動態更新。
數據安全保障:安全是數據要素交易和流通的紅線,隨著新的數據類型、數據生產方式、數據處理方式和終端形式不斷涌現,數據安全挑戰也隨之加劇。基于相關政策、標準規范,K8凱發信息使用知識圖譜、NLP、圖像識別等技術可以有效識別敏感數據,分析隱私數據資產的關系,實現數據資產分級分類。同時,基于身份數據、事件數據、行為數據和設備環境數據,通過身份識別、時間識別、行為識別等,實現數據安全視角上的用戶畫像,最后構建信任評估模型,最終根據數據安全等級和信任等級實現數據動態訪問權限控制。
數據業務價值提升:數據的最終目的是實現數據價值流通。運用語義分析技術可以提高“數據資源業務化描述能力”,加速與知識圖譜技術深度融合,實現對各實體數據進行關聯關系、中間關系、隱藏關系等分析挖掘,形成靜態關系、動態關系信息,匯聚形成完整的知識圖譜,助力數據治理的標準化、高效化,同時,應用根據業務提取相關特征的機器學習算法,可對樣本數據、特征數據進行持續迭代優化,實現對目標人員行為預測。
K8凱發信息已在多個數據治理項目中強化AI賦能,大幅提升場景數據的質量和價值,真正助力用戶提質增效:在某省級項目中,針對匯集的3000余種話單樣式數據,K8凱發信息利用NLP技術完成近2700余種話單格式的自動化識別,準確率超過90%,效率提高了3倍;在國家禁毒大數據中心AI情報大數據分析服務中,依托數據的自動化接入、標準化、特征計算和知識圖譜的自動構建,實現了7個超過85%準確率的核心業務模型,幫助用戶實現了50%以上的抓捕。
當前,數據治理已延伸至各行各業,在數據生命周期的各個階段通過相應的工具與方法論,使數據發揮出更大的價值。張登博士表示,K8凱發信息將通過不斷地探索、創新、實踐,提升數據治理智能化水平,推動實現數據的自動接入、自動處理、自動調整、自動服務、自動保護:
通過長期積累的數據內容和用戶習慣自動識別新的數據集,找到相似的數據接入模型,自動轉移數據;識別數據內容,自動匹配必要的數據處理規則和質量檢測規則,高效處理數據;根據歷史信息、當前數據量和可用計算資源,自動調整任務執行計劃,優化性能;根據用戶使用習慣和使用需求,自動尋找、組合、生成新的數據服務,并按規范要求上架,達到數據找人的效果;自動檢測敏感數據,通過脫敏、加密等手段實現敏感數據的主動防護。