如何建设1个数据平台

平台

  • Source 数据源
  • Integration 摄取整合
    • Batch
    • Streaming
    • Event
      • CDC
      • CLick Streaming
  • Data Store 数据存储-湖仓一体
    • 数据湖(三剑客 Doris trino Presto)
  • Transformation 数据转换(Flinksql)
  • Orchestration 编排(Airflow)
  • Presentation 智能分析(Tableau, PowerBI, Looker, and Qlik )
  • Transportation 传输(hightouch)
  • Observability 可观测性元数据系统-DataHub

数据架构

不同数据源按照不同的计算引擎整合到数据湖/数仓+sql提供数据etl+统一数据查询接口 统一读写资源编排 自底向上: 网络+存储SSD-存储:CFS/文件系统HDFS-alluixo+S3/Dfs-文件格式(parquet/orc)-冷热数据-dw(hive/iceberg/doris)-计算引擎-sql路由接口-数据同步方式

Licensed under CC BY-NC-SA 4.0
Built with Hugo
Theme Stack designed by Jimmy