1、大数据发展阶段介绍
一共4代,mr--DAG框架(tez)--Spark流批处理框架、内存计算(伪实时)--Flink流处理、内存计算(真实时)
2.什么是Flink?
Flink是一个分布式、高性能、开箱即用、精准的流处理计算框架。
Flink 可以对无界数据(流处理)和有界数据(批处理)进行有状态计算(flink 本身就支持有状态计算)。
3.flink流处理函数
4.Flink基金会
Flink 的四个基本原理:检查点、状态、时间和窗口。
Checkpoint:基于chandy-lamport算法实现分布式计算任务的一致性语义
State:flink的状态机制天然就支持state。状态可以被认为是程序的中间或历史计算结果。
时间:Flink 支持基于事件时间和处理时间的计算。火花稳定只能根据处理时间来处理。基于事件时间的计算可以解决数据延迟、乱序等问题。
Windows:Flink提供了更丰富的基于时间、数量、会话窗口的窗口,同时还支持滚动和滑动窗口计算。
5.flink批处理和流处理
流处理:实时性要求不受限制,只需要处理程序中经过的每一条数据。
批处理:有限、持久且需要访问所有数据
Spark 与Flink
Spark:在Spark生态系统中,所有计算都被视为批处理操作。 Spark Streaming 中的流处理本质上是批处理(微批处理)。
Flink:Flink 将批处理(有限数据集的处理)视为一种特殊的流处理场景。 flink中的所有计算都是流计算。
Flink技术栈
版权声明:本文转载于网络,版权归作者所有。如有侵权,请联系本站编辑删除。