平台
- Source 数据源
- Integration 摄取整合
- Batch
- Streaming
- Event
- CDC
- CLick Streaming
- Data Store 数据存储-湖仓一体
- 数据湖(三剑客 Doris trino Presto)
- Transformation 数据转换(Flinksql)
- Orchestration 编排(Airflow)
- Presentation 智能分析(Tableau, PowerBI, Looker, and Qlik )
- Transportation 传输(hightouch)
- Observability 可观测性元数据系统-DataHub
数据架构
不同数据源按照不同的计算引擎整合到数据湖/数仓+sql提供数据etl+统一数据查询接口 统一读写资源编排 自底向上: 网络+存储SSD-存储:CFS/文件系统HDFS-alluixo+S3/Dfs-文件格式(parquet/orc)-冷热数据-dw(hive/iceberg/doris)-计算引擎-sql路由接口-数据同步方式