首页 > 自考资讯 > 高考百科

第一章:flink简介

小条 2024-06-27

1、大数据发展阶段介绍

一共4代,mr--DAG框架(tez)--Spark流批处理框架、内存计算(伪实时)--Flink流处理、内存计算(真实时)

2.什么是Flink?

Flink是一个分布式、高性能、开箱即用、精准的流处理计算框架。

Flink 可以对无界数据(流处理)和有界数据(批处理)进行有状态计算(flink 本身就支持有状态计算)。

3.flink流处理函数

c5e06d15d91a475ab2a327b00d5d1068~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720046822&x-signature=wLesTwPKrZNowaY47ZN0UmByAzU%3D4.Flink基金会

Flink 的四个基本原理:检查点、状态、时间和窗口。

Checkpoint:基于chandy-lamport算法实现分布式计算任务的一致性语义

State:flink的状态机制天然就支持state。状态可以被认为是程序的中间或历史计算结果。

时间:Flink 支持基于事件时间和处理时间的计算。火花稳定只能根据处理时间来处理。基于事件时间的计算可以解决数据延迟、乱序等问题。

Windows:Flink提供了更丰富的基于时间、数量、会话窗口的窗口,同时还支持滚动和滑动窗口计算。

5.flink批处理和流处理

流处理:实时性要求不受限制,只需要处理程序中经过的每一条数据。

批处理:有限、持久且需要访问所有数据

Spark 与Flink

Spark:在Spark生态系统中,所有计算都被视为批处理操作。 Spark Streaming 中的流处理本质上是批处理(微批处理)。

Flink:Flink 将批处理(有限数据集的处理)视为一种特殊的流处理场景。 flink中的所有计算都是流计算。

Flink技术栈

1c19af1467f8440586a46d90d95ac806~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720046822&x-signature=DSqCI1gvYvfNWQAKKjDhMLPYOnI%3D

版权声明:本文转载于网络,版权归作者所有。如有侵权,请联系本站编辑删除。

猜你喜欢