提升數據分析能力正成為企業數字化轉型的當務之急。
成功的企業數字化案例顯然有自己的共同點:
重視數據質量、重視數據上下文、以及建立有效的數據管理體制。
而失敗的企業則各有各的問題。
我們調研了118家公司的首席信息官(CIO)、首席技術官(CTO)、數據總管以及IT部門的員工及顧問,找到了這7種企業數據實踐中最可能出現的問題。
只做數據集中,并沒有對數據進行整合
“數據整合是當今數據分析面臨的最大挑戰。”SAS公司的業務解決方案顧問,數據治理專業組織(DGPO)的首席發言人Anne Buff說道。
實際上,許多公司只是簡單地將數據堆積在一起,并未對不同來源的數據進行整合。就拿身份認定來說,比如一套系統下“路人A”的信息與另一套系統下“路人A”(甚至可能是重名)的信息之間,沒有進行關聯,這樣的話,就無法對“路人A”的身份進行完整性描述。
“數據整合并不等于將數據集中到一起,”Buff說,“對于某個研究對象,要將不同來源的數據相互關聯,以便獲取更準確的信息定位。一旦你這樣做,當這一切相關數據都聚集在一起時,它將達到一個更完整的結果,即比爾史密斯是誰。你必須將它們關聯起來。”
Buff還說道:各種數據集成技術使之成為可能,同時,正確的選用、實現并執行數據整合的技術,減少不必要的人工操作和重復勞動這點很重要。
數據科學家會通過數據來尋找并分析競爭優勢,可能的突破點等等,因此,數據整合也變得越發重要。
“如果不將以往所有的數據整合,就無法發現其中的模式。”Buff說道。
忽視了不同業務對數據的需求差別
“整合的集成數據技術對于一個成功的分析程序是至關重要的,必須要意識到不同業務部門對數據的需求是不同的,”Buff說道,“數據的形式不能千篇一律。相反,還需要考慮數據供給,IT部門需要將業務類型與數據形式相匹配。”
并不是所有的業務都需要整合過后的數據。以金融機構的眾多需求為例,風控部門需要未經處理的原始數據,以從中發現異常。比如通過搜尋多組數據中某個人地址信息的,確定其是否申請了多筆貸款等。
“這些業務更傾向于研究多組相似數據間的差別,因此這些差別是要有所保留的。”Buff解釋道。
另一方面,諸如市場部等部門希望實現準確的用戶信息定位,因此只需要其中正確的那組數據。
數據工程師可能比數據科學家更重要
數據科學家這個職業在過去幾年中正迅速搶占硅谷、紐約、中關村、西二旗的各大互聯網公司。一大批傳統企業也開始設置這個職位,并且大批招募。
畢竟,每個公司都希望通過勢頭正盛的新興技術使業務分析具有一定的預測性和分析說明,這需要專業團隊和人員的支持。
但通常,這些公司掛出的招募崗位只有數據科學家這一種。
這是遠遠不夠的。
數據科學家需要數據工程師來收集數據集,但是,數據工程師這一職位,在許多公司沒有受到應有的重視。
“目前,大公司對數據工程師的需求增速是對數據科學家需求的兩倍。” 貝恩公司舊金山辦事處合伙人,高級分析和數字化實踐負責人Lori Sherer這樣說。
美聯邦勞工統計局預測,目前數據工程師的平均年薪已經達到135,800美元,且未來十年里,對數據工程師的需求將繼續保持快速增長態勢,2026年前將新增44200個相關的就業崗位。
有專家稱,同很多IT崗位一樣,數據工程師的人才供不應求,部分企業會通過招聘或者從IT部門普通員工中選拔培訓,來彌補這一人才缺口。
缺乏對數據時效性和生命周期的管理
近十年來,隨著數據存儲成本不斷降低, IT部門可以將大量數據存儲起來,并保存很長的時間。對于不斷增長的數據量和數據分析需求來說,這是個好消息。
“公司都希望擁有大量數據。”Soaring Eagle咨詢公司的創始人、《挖掘新黃金:管理你的商業數據(Mining New Gold: Managing Your Business Data)》的合著作者Penny Garbus說道。
但Garbus同時認為,許多企業都將數據留存的過久了。
“這不僅僅是存儲成本的問題,超過十年的數據基本沒有時效性了。”她說,“數據要被賦予生命周期。”
Garbus認為,數據留存期限要根據不同部門、不同組織來確定。例如,零售行業需要的是即時和相關的數據,而市場部門需要多年來的歷史數據以探尋趨勢。
這需要IT部門根據不同部門的需求,制定一套明確的數據時效標準,從而確保數據的有效性。
Garbus還補充道,對于那些“老舊”數據,只要保證有就可以了,不要將其放在核心數據庫中。
只關注數據量而忽視數據相關性
“我們總喜歡用最容易獲得的數據進行建模與分析,而不是最相關的。” Booz Allen Hamilton(IT咨詢公司)的高級副總裁Steve Escaravage說。
他認為,這是目前公司或組織普遍存在的一個誤區。或許,在尋找更多的數據集之前,應該先想想數據是否相關,而不是詢問我們是否有正確的數據。
比如,許多公司會從大量數據中尋找異常。盡管充分性很重要,但優秀的公司同樣兼顧數據的針對性。他們會關注來自于特定個體和機構的數據,并從中發現異常。比如醫療結構在分析病例時,會考慮到醫生的輪班周期等。
Escaravage認為,公司或組織可以列一個數據意愿清單,由業務部門填寫意愿,由CIO、CTO或首席數據高管實現數據收集。
忽略數據來源
“當今數據分析存在一個顯著的問題,是數據偏見。偏向性的數據會造成分析結果偏差,從而影響到正確的業務決策與結果。其中的偏見來源于整個分析過程涉及的許多個部門,包括IT部門處理數據方式,都會有一些偏見。”Escaravage說道。
“很多時候,IT部門在對數據來源的追蹤上,做的并不完善。如果無法意識到這一點,就會影響到數據模型的的性能,而且,缺乏數據來源的可見性使得對偏見的控制更為困難。”
Escaravage覺得,IT有義務搞清楚數據的來源在哪里,以及來源的相關情況。在投資數據管理的同時,也要制定一套源數據管理解決方案。
缺乏面向用戶的數據上下文
Escaravage認為,不僅應該有一個強大的源數據管理程序,它可以追蹤數據的來源,以及它是如何在系統中運行的,它應該為用戶提供一些歷史信息,并為一些通過分析產生的結果提供背景信息。
“有時我們會認為,擁有絕佳的數據和模型已經足夠完美,但是近幾年,由于分析方法越來越復雜,對數據和分析結果的解釋變得越來越少。不像前幾年,在將分析結果應用于業務時,會根據業務規則對數據進行分析闡述。”他說。
Escaravage解釋道,更新的深度學習模型為分析結果提供了一些注解,也為決策提供了一些可行的建議,但無法提供對最佳決策有幫助甚至至關重要的上下文,例如某件事情發生的可能性與確定性等信息。因此,需要能提供更好的用戶界面以幫助用戶進行決策。
“其中的技術問題在于,要明確用戶與數據模型的交互程度如何。UI/UX界面決定了系統對用戶的透明度,而透明度取決于用戶對分析結果的鉆研深度,這些都是首席信息官(CIO)在建立分析系統前,應當考慮清楚的。”