什么是數據集成?
在企業大數據項目中有80%的工作都和數據集成相關,數據集成是將零散的數據整合在一起,形成一個新的數據集,從而為企業提供全面的數據共享。
企業為什么要進行數據集成?
由于企業各部門之間數據不互通,數據彼此獨立、相互封閉,很難使得數據進行融合與共享,導致企業形成“數據孤島”,企業想要徹底消除數據孤島,需要集成現有數據,實現數據一體化,充分利用數據資源,為企業提供決策與支持。
您的數據是否遇到以下幾種情況
1.缺乏全面的數據梳理,無法準確掌握數據整體狀況。
2.數據來源多種多樣、含義、口徑不一,數據質量低下。
3.零散數據眾多,無法進行數據整合。
4.缺乏數據共享有效監管,上下游數據出現不一致情況。
吉佳通達數據集成技術簡介
1.實體對齊
實體對齊是判斷兩個或者多個不同信息來源的實體是否為指向真實世界中同一個對象,如果找到多個實體表征同一個對象,則需要在這些實體之間構建對齊關系,同時對實體包含的信息進行融合和聚集。我們來舉個簡單的例子,如“王明”一詞,在不同來源中指向同一對象,所以在實體對齊的過程中需要將不同來源的實體信息進行對齊融合,以避免“王明”在知識圖譜中重復出現或實體的信息不完整。
2.記錄鏈接
記錄鏈接是在數據集中查找跨越不同數據源,它基于在可用數據集中匹配的單個標識符的數量來生成鏈接。每個源包含若干記錄,而記錄包含一定數量的列。一般,每個記錄對應于一個實體,而列是標識實體的屬性,例如名字、地址、年齡和性別。
3.投影、篩選
投影是“選擇”列,篩選是“選擇”行。
篩選是按條件,投影是指選擇一個屬性的數據,如有一個患者表包含屬性:姓名、年齡、性別,當選擇姓名為“王明”的患者,會選擇出所有患者姓名為“王明”的患者。
4.數據集
將篩選之后的數據,融合在一起,形成新的數據集。
吉佳通達數據集成基于領域知識圖譜集成數據,可保證數據概念模式的科學性,實現多種數據類型的關聯,通過對各個數據源的數據交換格式進行一一映射,從而實現數據的流通與共享。
微信咨詢
17743467638