技術背景
大數據時代的到來,數據正以前所未有的速度爆發性增長,數據已經成為土地、能源等傳統資源之外的一種新資源。大量的數據來自不同的源頭,雜亂無章,質量參差不齊。一般單位少則十幾個信息系統,多則幾十上百個,這些系統之間若溝通不暢,會產生數據孤島,造成工作效率低下。一方面大量數據閑置,無法有效被利用,另一方面數據被重復錄入,費時費力,容易產生差錯。
只有可管理,可調用,可計算,可變現的數據資源才能成為資產,才能服務政府,城市和產業,幫助實時統籌科學決策。正確決策來源于對實際情況的了解,某種意義上說,就是對來自各方的各類數據的正確匯集、整理、歸納、分析,從而得出正確的結論。
數據集成是把不同來源、格式、特點性質的數據在邏輯上或物理上有機地集中,通過應用間的數據交換從而達到集成,解決數據的分布性和異構性的問題,從而為企業提供全面的數據共享。
產品簡介
巨龍信息大數據集成系統是一款基于分布式并行計算架構開發的ETL數據集成系統。采用組件化設計,適配混合主流云,提供多種類型的數據抽取、整合插件、監控組件、作業流程模型,支持快速定制插件開發,具備高吞吐、高可用、高擴展特性,為海量數據的超大規模數據倉庫建設提供抽取、整合、清洗、入庫等集成業務。
技術架構
系統主要包含配置管理、任務調度、監控中心、元數據管理等
運行架構
系統運行具有高可用的特性,會自動感知執行引擎異常,將異常設備的任務轉發到正常設備上重新執行。運行架構如下圖:
部署架構
系統部署包含應用端、調度引擎、執行引擎。
ETL-應用: 完成數據集成邏輯的工作流建模和日常監控管理。
ETL調度引擎:統一執行邏輯的調度控制和任務分發,分布式管理。
ETL-執行引擎:ETL任務的具體執行器。
部署架構如下圖所示:
產品優勢
■高吞吐處理能力:采用多線程處理算法,高效的內存利用率;任務運行過程無需本地磁盤IO操作,提升整體單位時間的大批量處理能力;支持TB/h級的大數據集成業務性能。
■高擴展、高可靠:并行架構提升單機處理能力的線性擴展;新增執行引擎的快速部署和自動識別,分布式架構提升多機處理能力的線性擴展;執行引擎宕機的自動識別和任務轉移,保證任務的順利執行。
■可視化流程配置:通過簡單的圖形拖拽配置數據集成流程,簡單易用的專業化配置。
■集成業務全流程監控:可對處理過程的每個步驟,每個子流程處理進行實時監控,簡單快速發現處理過程遇到的漏數據,錯處理等問題。
■統一的元數據模型:基于統一公共倉庫元模型,可與產品線其他產品無縫對接,簡化整體解決方案的實施運維。
■大數據技術支持:支持主流的關系型數據庫,NOSQL數據庫,全文庫處理等主流大數據產品的抽取入庫,以及異構庫之間的抽取入庫。
■低廉的硬件成本:使用x86架構的PCServer,無需昂貴的unix服務器。
■數據源支持:支持超過40+數據源的鏈接包括國產數據庫。
■業務規則支持:支持自定義數據檢查規則、質量規則、補全規則等,可以實現復雜的數據集成需求。
■處理模式:支持批流一體化處理,大幅提升數據的采集和同步時間。
■快速擴展支持:提供插件開發SDK,可快速定制開發所需的業務插件。
1、系統在某地配置管理2000余個大數據治理作業,支撐日增量百億級別的數據抽取、整合、清洗、轉換、入庫等集成業務,運行穩定。
2、系統在多地已經分別與華為云、騰訊云、華三云、阿里云,甚至是一地多云進行適配對接,完成數據的抽取、整合、清洗、轉換,入庫等集成業務。