數據處理方案實現對采集的數據進行大數據環境下的非結構化數據寬表存儲服務。包含對原始數據庫的管理功能,有效管理源數據,提供源數據的清洗服務,可動態配置不同數據的不同清洗規則,提供去重、去殘、格式轉換等清洗功能。對清洗后的數據進行分層存儲達到最大利用價值,對數據提供非結構化的分析服務,包含對關鍵詞提取、自動摘要提取服務、提供相似性、聚類等大數據算法服務,最終將數據整理為高質量數據,提供數據的多格式導出。
《數據處理》解決方案主要包含原始數據庫管理、清洗規則管理、清洗庫管理、數據服務管理、數據轉換管理五部分內容。以大數據架構體系為核心,涵蓋源數據的全量存儲,對于源數據提供自定義多種清洗流程自由搭配設定,對于清洗后的數據分層存儲,達到數據逐步處理提純的目的,系統提供結構化與非結構化數據大批量處理服務,包含文檔解析,關鍵詞自動摘要提取、相似性計算等,有效提升數據質量,達到數據加工的目的。