704| 0
|
[AI/大数据] 597 轻松入门大数据:玩转Flink,打造湖仓一体架构 更新中 |
课程介绍: 随着数据规模持续的高速增长,大数据基础设施技术从数据库、数据仓库演化到如今的湖仓一体架构,更成为未来新的架构标准。而Flink因为其优良的性能与广泛的适用性,也成为大数据核心技术之一。本课程将从Flink零基础讲起,涵盖Kafka、ClickHouse、Hudi等热门技术栈,结合多种实时处理场景,构建当下最热门的数据湖、湖仓一体架构,助你轻松进阶大数据工程师! 课程目录: 第1章 大厂技术首选高薪必备:揭开Flink的神秘面纱 试看 11 节 | 53分钟 要论当前业界最火的大数据实时处理引擎,Flink要说第二,无人敢称第一。本章节为大家揭开Flink的神秘面纱:Flink是什么、它的发展史、特性;对比Spark它的优势;以及Flink在大厂中是如何被广泛实践的。 1-1 高薪大数据工程师必备技能,你掌握了么? (08:16) 试看 1-2 本章概览 (02:01) 1-3 认识Flink (08:24) 1-4 部署应用到任意地方&运行任意规模应用 (05:04) 1-5 Flink的起源及发展史 (05:29) 1-6 Flink中的API (09:33) 1-7 Flink核心特性 (05:44) 1-8 Flink对比Spark (07:32) 图文: 1-9 【科普小贴士】Flink发展史&特点&行业应用 图文: 1-10 【面试官来啦】面试讨论题 作业: 1-11 【练练练】阶段作业题 第2章 批流一体丝滑开发体验:快速上手使用Flink进行编程 试看 11 节 | 79分钟 批流一体是当前以及未来的发展方向,如何使用Flink快速开发出批流一体的应用程序,是我们本章节的重点。同时,也会带领大家,总结出基于Flink进行开发的编程套路,助力轻松实践。 2-1 本章概览 (02:42) 2-2 基于Flink官方提供的命令构建Flink应用程序 (13:37) 2-3 基于IDEA+Maven构建Flink应用程序的本地开发环境 (11:25) 2-4 词频统计案例需求分析 (07:41) 2-5 Flink以批处理的方式实现功能开发 (11:57) 2-6 开发重构之自定义Function的方式 (04:20) 2-7 开发重构之Lambda表达式写法 (11:26) 2-8 Flink以流处理的方式实现功能开发 (07:44) 2-9 通过参数控制Flink以何种模式运行作业 (03:48) 试看 2-10 Flink对接socket数据并进行统计分析 (03:25) 作业: 2-11 【练练练】阶段作业题 第3章 工欲善其事必先利其器:Flink部署及作业运行 16 节 | 94分钟 Flink应用程序开发完之后,在生产上都是运行在服务器上的。在知晓Flink的架构之后,我们将一起进行Flink环境的部署,并实践如何将Flink作业运行在服务器上。本章中,将涉及Flink的不用运行模式以及Flink UI的详细讲解,为后续要进行Flink应用的调优打下坚实的基础。... 3-1 本章概览 (03:39) 图文: 3-2 【环境配置】云主机开通及配置 3-3 从宏观角度认识Flink架构 (11:23) 3-4 再次认识JobManager和TaskManager (09:42) 3-5 Flink Standalone模式部署及Flink UI介绍 (10:38) 3-6 flink run运行官方自带案例 (03:24) 3-7 【补充】如何在本地运行环境中设定Flink WebUI (07:14) 3-8 动态传递参数给Flink应用程序改造 (04:02) 3-9 使用Flink WebUI提交自己开发的Flink应用程序 (03:33) 3-10 取消作业的两种方式 (03:39) 3-11 【重要】如何使用命令行的方式提交Flink应用程序 (08:11) 3-12 初探Flink集群部署模式 (13:20) 3-13 Flink Standalone之Application Mode方式运行 (05:37) 3-14 Flink on YARN之Application Mode方式运行 (08:46) 图文: 3-15 【面试官来啦】面试讨论题 作业: 3-16 【练练练】阶段作业题 第4章 快速便捷接入各种数据:Flink Data Source API编程 试看 12 节 | 81分钟 大数据处理经典的三段论:接入数据、处理数据、输出结果。本章节详解第一段论即Flink如何接入数据。本章中,将通过案例实战,带领大家在掌握Flink为我们内置的数据源API的基础上,深入源码,轻松掌握自定义数据源接入的二次开发实践思路及开发套路。 ... 4-1 本章概览 (03:14) 4-2 DataStream API编程规范以及DataStream是什么 (10:02) 4-3 Flink多种执行环境的获取方式 (08:15) 4-4 结合源码分析Data Source (11:17) 4-5 单并行度Source测试用例 (09:54) 4-6 多并行度Source测试用例 (07:55) 4-7 结合源码分析SourceFunction (04:48) 试看 4-8 自定义实现单并行度数据源 (07:20) 4-9 自定义实现多并行度数据源 (01:03) 4-10 自定义数据源实现MySQL数据的读取 (16:36) 图文: 4-11 【面试官来啦】面试讨论题 作业: 4-12 【练练练】阶段作业题 第5章 高效简洁数据处理方式:Flink Transformation API编程 12 节 | 69分钟 大数据处理的核心部分就是接入数据之后,如何快速高效的对数据按照需求进行处理。本章节详解大数据处理经典的三段论的第二段论,即Flink如何处理数据。在课程中,将通过案例实战,带领大家彻底掌握Flink为我们内置的Transformation API。... 5-1 本章概览 (01:52) 5-2 认识Flink中有哪些Transformation算子 (02:29) 5-3 Tranformation算子实操之map算子 (09:15) 5-4 Tranformation算子实操之filter算子 (04:38) 5-5 Tranformation算子实操之flatMap算子 (05:54) 5-6 Tranformation算子实操之keyBy算子 (08:15) 5-7 Tranformation算子实操之union算子 (04:14) 5-8 Tranformation算子实操之connect算子 (06:22) 5-9 Tranformation算子实操之自定义分区器 (16:01) 5-10 DataStream分流 (09:52) 图文: 5-11 【面试官来啦】面试讨论题 作业: 5-12 【练练练】阶段作业题 第6章 处理结果吐出外部系统:Flink Sink API编程 10 节 | 59分钟 大数据处理经典的三段论:接入数据、处理数据、输出结果。本章节详解第三段论即Flink输出结果。基于Flink我们将数据处理之后,得将处理结果吐出到目的地,为下游的处理或者展示提供数据来源。在课程中,我们将通过案例实战,在掌握Flink为我们内置的Sink API的基础上深入源码,轻松掌握自定义Sink的二次开发思路及实现套路... 6-1 本章概览 (02:17) 6-2 认识Flink中的Sink (05:25) 6-3 Sink算子实操之print (07:35) 6-4 Sink算子实操之自定义Sink到终端 (03:36) 6-5 Sink算子实操之自定义Sink到文件系统 (10:45) 6-6 Flink处理结果输出到Redis中 (12:04) 6-7 Flink处理结果输出到MySQL中 (11:24) 6-8 Sink算子实操之输出到socket (04:55) 图文: 6-9 【面试官来啦】面试讨论题 作业: 6-10 【练练练】阶段作业题 第7章 玩转Flink项目实战之一:实时统计之商品分析 14 节 | 66分钟 如何使用Flink进行各种不同维度的统计分析并入库?如何在生产环境中,进行Flink应用开发的同时进行调优的思考?这将是我们本次实战场景将与大家一同探讨的问题。 7-1 本章概览 (01:36) 7-2 企业中基于Flink实时处理的架构分析 (11:37) 7-3 需求分析 (07:39) 7-4 本地开发环境搭建 (03:38) 7-5 项目日志字段说明及生产数据注意事项 (04:43) 7-6 对接数据及清洗 (07:25) 7-7 日期格式清洗 (03:23) 7-8 统计结果 (01:58) 7-9 统计结果入Redis库 (03:53) 7-10 自定义RedisSink (04:49) 7-11 实现改造并进行统计结果的diff (09:45) 7-12 拓展 (04:46) 图文: 7-13 【面试官来啦】面试讨论题 作业: 7-14 【练练练】阶段作业题 第8章 一起揭开Kafka神秘面纱:Kafka架构&核心术语 7 节 | 48分钟 在实时流处理框架中,Kafka和Flink是一对绝对且经典的CP,在生产上基本都是这2者的搭配使用。本章中,将通过对Kafka架构的图解引出核心概念,揭开Kafka的神秘面纱。 8-1 本章概览 (01:53) 8-2 认识JMS (06:21) 8-3 通过官网的介绍知晓Kafka是什么 (10:03) 8-4 自我语言总结Kafka是什么 (05:34) 8-5 Kafka在大数据中的典型使用场景screenflow (06:53) 8-6 图解Kafka架构 (16:31) 图文: 8-7 【面试官来啦】面试讨论题 第9章 工欲善其事必先利其器:Kafka部署及监控 11 节 | 72分钟 监控是运维的眼睛,是稳定性建设中最重要的一环,监控不仅是开发工程师也是运维工程师必须要会的。掌握Kafka的多种不同部署方式,以及如何使用命令行对Kafka进行操作,并对Kafka进行相关指标的监控,是这章中,大家需要学习的重点内容。... 9-1 本章概览 (02:56) 9-2 动起我们的小手进行单节点单Kafka的部署(上) (02:27) 9-3 动起我们的小手进行单节点单Kafka的部署(下) (18:22) 9-4 kafka-topics命令行核心参数讲解 (08:07) 9-5 Kafka Topic命令行操作 (10:11) 9-6 Kafka生产者消费者命令行操作 (08:40) 9-7 动起我们的小手进行单节点多Kafka的部署 (09:04) 9-8 单节点多Kafka脚本命令测试 (03:41) 9-9 Kafka监控部署及使用 (07:56) 图文: 9-10 【面试官来啦】面试讨论题 作业: 9-11 【练练练】阶段作业题 第10章 深度剖析Kafka生产者:消息发送流程&API编程&调优 21 节 | 164分钟 思考:Kafka生产者是如何高可靠的进行数据发送的呢?针对Kafka三大核心组件:Producer、Broker、Consumer,本章详解的是核心组件之Producer。课程中,将通过图解及经典面试题解析的方式,带领大家彻底掌握Kafka Producer整个执行流程,以及各个数据流转环节的调优,能够熟练实践基于Java API对Kafka进行高效访问。... 10-1 本章概览 (03:12) 10-2 【经典面试题--必掌握】生产者消息发送流程 (21:39) 10-3 生产者消息发送流程核心参数详解 (11:38) 10-4 生产者API开发之普通异步发送 (14:34) 10-5 生产者API开发之普通异步发送代码重构 (06:23) 10-6 生产者API开发之带回调的异步发送 (04:59) 10-7 生产者API开发之同步发送 (02:41) 10-8 Kafka的分区机制能为我们带来什么 (10:29) 10-9 Kafka分区策略结合源码分析 (06:53) 10-10 Kafka分区策略结合源码分析进行功能验证 (10:56) 10-11 Kafka自定义分区器功能开发及测试 (05:48) 10-12 Kafka性能调优参数在代码中的使用 (08:06) 10-13 【经典面试题--必掌握】谈谈你对Kafka中的副本以及同步副本的看法 (11:29) 10-14 【经典面试题--必掌握】谈谈你对Kafka中的acks的看法 (17:20) 10-15 【经典面试题--必掌握】谈谈你对Kafka中的消费语义的看法 (03:45) 10-16 精准一次消费实现之幂等性 (10:56) 10-17 精准一次消费实现之事务 (05:09) 10-18 精准一次消费实现之事务功能开发及测试 (05:31) 10-19 Kafka中Topic内的Partition中数据的有序性 (02:14) 图文: 10-20 【面试官来啦】面试讨论题 作业: 10-21 【练练练】阶段作业题 第11章 深入剖析Kafka Broker:Kafka消息高效存储机制 8 节 | 81分钟 思考:Kafka数据是如何做到读写效率是如此之高,并被大数据以及Java后端所大量采用的?关于Kafka三大核心组件:Producer、Broker、Consumer,本章详解的是核心组件之Broker。课程中,会通过图解及经典面试题解析的方式,带领大家掌握Kafka Broker整个执行流程,并剖析Kafka的消息是如何进行读写以及高可用的。... 11-1 本章概览 (01:32) 11-2 Kafka相关信息在ZK上的存储机制 (14:45) 11-3 Leader选择与ZK的关系 (10:48) 11-4 Kafka副本机制 (11:28) 11-5 Kafka数据存储机制 (08:18) 11-6 Kafka数据存储机制更深入讲解 (26:03) 11-7 Kafka核心参数讲解 (07:49) 图文: 11-8 【面试官来啦】面试讨论题 第12章 深入剖析Kafka消费者:消息消费流程&API编程&调优 20 节 | 150分钟 思考:Kafka消费者如何提升消费效率,使得不至于有大量的消息被滞留?关于Kafka三大核心组件:Producer、Broker、Consumer,本章详解的是核心组件之Consumer。课程中,将通过图解及经典面试题解析的方式,带领大家深度理解Kafka Consumer整个执行流程,剖析消费者组能为我们打来什么,消息的分配策略以及offset的管理。... 12-1 本章概览 (02:10) 12-2 Kafka为什么使用的是pull的消费方式 (10:12) 12-3 有了消费者之后为什么还需要消费者组 (07:11) 12-4 消费者组和Topic的关系 (08:45) 12-5 Kafka消费流程 (12:12) 12-6 结合源码了解GroupCoordinator初始化过程 (20:30) 12-7 消费者API编程之单消费者消费所有分区数据(上) (11:25) 12-8 消费者API编程之单消费者消费所有分区数据(下) (10:57) 12-9 消费者API编程之消费指定分区数据 (05:44) 12-10 消费者API编程之多消费者消费各自分区数据 (03:55) 12-11 Kafka分区策略之Range (10:32) 12-12 Kafka的Rebalance机制 (05:18) 12-13 根据源码描述测试Range的分区策略及Rebalance (11:36) 12-14 统一思想完成其他策略的验证 (03:12) 12-15 认识__consumer_offsets (07:53) 12-16 Kafka offset管理之自动提交 (09:38) 12-17 Kafka offset管理之手动提交 (03:17) 12-18 offset管理不当带来的隐患 (05:10) 图文: 12-19 【面试官来啦】面试讨论题 作业: 12-20 【练练练】阶段作业题 第13章 经典Kafka CP整合使用:Kafka整合外部系统 9 节 | 61分钟 Flink和Kafka是一对完美的CP,那这对CP是如何配对使用呢?本章中,将带领大家一起实践,Kafka分别作为Producer和Consumer如何整合Flume、Flink的综合使用技巧。 13-1 本章概览 (01:10) 13-2 认识Kafka在离线&实时处理处理架构中的位置 (13:13) 13-3 Flume Sink到Kafka方案理解 (06:34) 13-4 Flume Sink到Kafka功能开发及测试 (09:53) 13-5 Flume KafkaSource对接到终端功能开发及测试 (07:25) 13-6 Flink KafkaSource解读 (10:40) 13-7 Flink KafkaSource功能开发及测试 (05:48) 13-8 Flink KafkaSink功能开发及测试 (06:09) 作业: 13-9 【练练练】阶段作业题 第14章 玩转Flink项目实战之二:实时统计之商品分析(对接Kafka) 9 节 | 61分钟 在掌握Flink和Kafka这对CP在生产上的使用之后,本章中,将带领大家,再次理解Kafka和Flink这组CP在生产上的搭配使用。如何使用Flink对接Kafka数据完成各项指标的统计分析?Flink对接Kafka在生产上使用时要注意如何优雅避坑?这些都将在课程中一一讲解。... 14-1 本章概览 (01:19) 14-2 架构及内容介绍 (04:24) 14-3 Flink接入Kafka数据 (10:27) 14-4 重构代码 (04:15) 14-5 Flink Stream关联MySQL数据操作 (13:15) 14-6 Flink Asynchronous IO (11:23) 14-7 Flink异步IO读取MySQL的数据 (15:26) 图文: 14-8 【面试官来啦】面试讨论题 作业: 14-9 【练练练】阶段作业题 第15章 时间对实时处理的影响:Flink时间语义及Window API篇 21 节 | 157分钟 如何对窗口进行选型并结合Flink在生产上的使用?Flink中的窗口能为我们带来将无穷无尽的流切分成小批次的处理,本章中,我们将一起,结合案例实战,彻底掌握Flink中非常多的不同语义的窗口定义,并对划分后的窗口进行数据处理。... 15-1 本章概览 (02:51) 15-2 揭开Flink时间语义的面纱 (17:30) 15-3 时间语义如何选择呢 (10:27) 15-4 Window在实时计算中的地位 (05:39) 15-5 Window的分类 (09:40) 15-6 Window Assigners的职责及对应Window的分类 (07:32) 15-7 Tumbling Window (04:37) 15-8 Sliding Windows (07:53) 15-9 Session Windows (04:51) 15-10 动手实操之CountWindow (11:13) 15-11 动手实操之TumblingWindow (08:44) 15-12 动手实操之SlidingWindow (07:38) 15-13 动手实操之SessionWindow (02:11) 15-14 Flink支持的WindowFunction (08:31) 15-15 WindowFunction动手实操之ReduceFunction (08:59) 15-16 WindowFunction动手实操之AggregateFunction (12:20) 15-17 WindowFunction动手实操之ProcessWindowFunction (09:20) 15-18 WindowFunction动手实操之AllWindowFunction (01:44) 15-19 WindowFunction动手实操之全量配合增量使用 (14:36) 图文: 15-20 【面试官来啦】面试讨论题 作业: 15-21 【练练练】阶段作业题 第16章 延迟乱序数据解决方案:Watermark在Flink中的使用 10 节 | 80分钟 生产上如何处理由于网络抖动带来的数据乱序以及数据延迟的问题?在本章中,我们将引入Watermark机制,并结合前一章节的窗口这对CP来解决生产中线上经常遇到的问题。 16-1 本章概览 (01:24) 16-2 引入WM (09:50) 16-3 WM策略 (07:09) 16-4 WM策略代码演示 (14:27) 16-5 测试数据的WM (11:25) 16-6 【重要】综合编程之滚动窗口 (10:07) 16-7 【重要】综合编程之滑动窗口 (07:09) 16-8 【重要】数据延迟&乱序解决方案 (17:31) 图文: 16-9 【面试官来啦】面试讨论题 作业: 16-10 【练练练】阶段作业题 第17章 Flink容错核心状态管理:状态在Flink中的应用 为什么说Flink是基于状态的流处理引擎,Flink是如何进行状态管理?为什么Flink要为我们提供要状态的管理?Flink有多种不同的状态管理方式,本掌中,将通过我们自定义的状态管理引入,结合案例实战,彻底掌握不同的状态管理的编程,并结合checkpoint&状态管理后端做到生产上端到端的状态管理一致性。... 第18章 玩转Flink项目实战之三:实时统计之数据大盘 Flink在生产上如何基于Window和State整合的最佳实践?如何重构出标准的Flink对接Kafka的代码,以便后期的复用?这一章中,让我们一起,深入探究并掌握,Flink中端到端的Exactly-once语义、数据乱序的解决方案吧。 第19章 Flink更加精简的开发方式:Flink Table & SQL API 相对于编程来说,SQL面向的受众更广,如果一个框架最终能落地到SQL进行数据处理,那必然是一个完美的选择,这也是业界大数据引擎所正在追求的路线。本章节我们重点来掌握,Flink如何使用SQL的方式来接入数据、处理数据、输出结果;以及如何基于Flink函数进行二次开发的技巧和套路。... 第20章 数据采集神器Flink CDC:基于Flink CDC 进行实时数据采集 在不写代码的前提下,Flink CDC如何快速高效的对接外部数据库的数据? 对接外部各种数据库,在以前我们都是通过数据源的方式进行接入,是需要进行编程开发的,Flink深知痛点,提出CDC的解决方案,本章中,我们将一起实践,使用代码的方式,以及直接使用SQL的方式快速高效的将数据源对接到Flink框架上来。... 第21章 玩转Flink项目实战之四:实时统计之直播榜分析 如何使用Flink CDC实时快速高效收集业务库数据?如何使用Flink SQL进行各维度统计分析?当使用Flink CDC时遇到整合Flink版本不兼容时,如何进行基于源码的二次开发?带着这些问题,我们一起开始本章的学习吧。 第22章 战斗民族开源神器ClickHouse:揭开CH的神秘面纱 本章中,我们将一起来,揭开当前业内最火的OLAP框架ClickHouse的面纱。基于场景入手,找出现存解决方案的痛点,并引入ClickHouse,讲解ClickHouse的部署,如何对ClickHouse的配置进行修改,并使用官方提供的数据集,助力你轻松上手ClickHouse。... 第23章 ClickHouse数据类型精讲:详解ClickHouse的各种数据类型的使用 对于表操作来说,第一件事就是要创建表,那么ClickHouse中到底支持哪些数据类型呢?在这一章中,我们一起来彻底掌握ClickHouse的各种不同数据类型的使用以及注意事项。 第24章 ClickHouse内置函数精讲:详解ClickHouse的内置函数的使用 表创建完毕并导入数据之后,接下来要做的事情就是使用SQL来进行统计分析了,那么在使用SQL的过程中必然要使用到ClickHouse中内置的各种函数的使用。在这一章中,我们将来一起应用CH的各种内置函数,通过案例实操的方式分门别类的掌握各类核心函数的使用... 第25章 ClickHouse核心DDL&DML:库&表&视图的使用 在本章节中,让我们一起来玩转,ClickHouse中关于库、表、视图的核心操作。掌握库&表&视图的DDL以及DML操作。 第26章 ClickHouse核心引擎分析:各家族核心引擎使用及选型 ClickHouse为我们提供了非常多的引擎,在本章节中,我们将来彻底掌握,ClickHouse中各种不同引擎的选择及使用(这也是ClickHouse中最核心的部分)。课程中我们将通过案例实战的方式,在掌握不同引擎的使用以及区别的基础上,根据不同引擎的特性掌握在生产上遇到不同场景时选择引擎的最优策略。... 第27章 ClickHouse元数据中心:元数据管理 本章中,我们将结合对ClickHouse中所涉及到的库、表、函数等的元数据管理的系统梳理,深度探究ClickHouse中创建的表在底层是如何进行拆分和组合的。 第28章 经典ClickHouse整合Flink编程:整合Flink开发 本章中,我们将一起时间,如何应用ClickHouse的标准jdbc编程,以及Flink整合ClickHouse的数据读写操作编程中的各种避坑技巧。 第29章 玩转Flink项目实战之五:基于Flink和ClickHouse构建实时数据分析 如何打造基于Flink的标准化将数据清洗后统一接入到ClickHouse?如何基于ClickHouse SQL进行各种维度的统计分析?如何进行Flink&ClickHouse的运行指标可视化监控?好了,让我们在本章的实践中,一一揭秘。 第30章 揭开数据湖的神秘面纱:数据湖开源产品Hudi的使用 数据湖是什么?能为企业带来什么?湖仓一体是未来的发展趋势,现在很多云产商都在基于开源数据湖框架进行自研,构建出数据湖的商业产品,所以数据湖相关技术是我们必须要掌握的技能。本章中,让我们一起揭开Hudi的神秘面纱,带你认识目前企业应用对最高的数据湖产品。... 第31章 玩转Flink项目实战之六:基于Flink和Hudi的数据湖构建项目 湖仓一体能为我们带来什么?存算分离带来的优缺点?如何基于Flink和Hudi构建数据湖?这些就是我们本章将带领大家实践的重要内容!
购买主题
本主题需向作者支付 70 学币 才能浏览
| |
学IT吧 www.xueit8.com X3.4
Copyright © 2001-2021, Tencent Cloud.