大数据系统的核心是分层解耦、流批协同,企业级标准架构分为5 层核心分层架构,外加3 种主流架构范式。
一、标准 5 层核心分层架构
1. 数据源层
结构化数据:MySQL、Oracle、业务库
非结构化数据:日志、文件、图片、音视频
半结构化数据:JSON、埋点、API 数据
实时流数据:IoT、消息队列、交易流
2. 数据采集层
批量采集:DataX、Sqoop
日志采集:Filebeat、Flume
增量实时采集:Canal、Debezium
流数据接入:Kafka、Pulsar
3. 数据存储层
数据湖:HDFS、对象存储、Iceberg/Delta Lake
数据仓库:Hive、ClickHouse、StarRocks
NoSQL:HBase、Redis
时序库:InfluxDB、TDengine
4. 数据计算层
离线批计算:Spark、Hive
实时流计算:Flink
交互式查询:Presto、Trino
ETL / 数据治理:清洗、脱敏、质量、血缘
5. 数据服务与应用层
数据服务:API 网关、统一查询服务
可视化:BI 报表、数据大屏
业务应用:画像、推荐、风控、决策
AI 建模:特征平台、模型推理
二、3 种主流落地架构范式
传统数仓架构
离线 T+1 分析,适合报表、经营分析。
流批一体架构
Flink/Spark 统一离线 + 实时,适合实时大屏、风控、推荐。
湖仓一体架构
数据湖 + 数仓融合,一份数据支持全场景,是当前主流趋势。
