PiaoMiaoky Blog

一生想做浪漫极客

Flink-窗口计算

为什么需要窗口计算 无界数据集统计,通过一个全局窗口统计,是不现实的 只有通过一些窗口的范围, 去签订出来一些有界的数据集, 基于这些有界数据集, 去统计出来一些结果, 最终汇总到我们的系统, 这其实是解决无界数据集统计的一种方式 每5分钟统计一次,统计当前5分钟以内数据中的最大值,出现次数以及 Sum 值 【窗口计算】: 对无界数据集进行有...

Flink eventTime & Watermark

基于eventTime处理数据 使用 Event-Time 处理过程中, Flink 系统需要知道 每个 StreamElement 的 EventTime 时间戳 接入的数据何时可以触发统计计算(Watermark) 窗口 12:00 – 12:10 窗口的数据全部被接收...

Flink中时间概念

不同的时间概念 eventTime-事件时间: 与事件发生的具体时间相关 processingTime-处理时间: 与具体发生的事件无关,仅关注何时处理 Flink 基于processingTime处理数据 特点: 基于机器本地时间进行处理 处理结果不固定,可...

分布式流处理模型

分布式流处理模型 Source-数据源: 如何与外部系统进行打通 读取相应消息中间件、socket端口里面数据 Operation-转换操作: 如何把接入的数据,进行相应转化操作,进行filter 或 transform 将不同的流进行connect的关联操作,最终转化为一个完整的结果 ...

Flink集群高可用

Flink集群高可用 生产环境必须考虑,HA能够快速恢复集群服务 Flink集群高可用 - JOb持久化 Flink集群高可用 - Handling Checkpoints Flink On Standalone 高可用配置 修改conf/flink-confyaml: high-availability: zookeeper high-availabi...

Flink集群部署-kubernetes集群模式

kubernetes集群架构概览 Master节点: 负责整个集群的管理,资源管理 运行APIServer,ControllerManager,Scheduler服务 提供ETCD高可用键值存储服务,用来保存Kubernetes集群所有对象的状态信息和网络服务 Node: 集群操作的单元,Pod运...

Flink集群部署-yarn集群模式

Yarn集群架构 ResourceManager (NM): 负责处理客户端请求 监控NodeManager 启动和监控ApplicationMaster 资源的分配和调度 NodeManager: 管理单个Worker节点上的资源 处理来自ResourceManager的...

Flink集群部署-standalone集群模式

Standalone集群 集群特点: 分布式多台物理主机部署 依赖于java 8或者java 11 jdk环境 仅支持Session模式提交Job 支持高可用配置(Master主备) Standalone (单机) 集群部署 JobManager和TaskManager全部在一台机器上运行 支持...

Flink的核心特性、集群架构

Apache Flink集群架构、部署模式 集群架构组成 JobManager:管理节点,每个集群至少有一个,管理整个集群计算资源,Job管理与调用执行,以及Checkpoint协调 TaskManager:每个集群有多个TM,负责计算资源提供 Client:本地执行应用main()方法解析JobGraph对象,并最终将JobGraph提...

Flink适用场景介绍

Apache Flink介绍 大数据处理计算模式 批量计算-(batch) MapReduce Apache Spark Hive Flink Pig 流式计算(stream) Storm Spark Streaming Apache Flink ...