课程亮点:
1、系统的设计方法是采用面向对象的设计。本系统前端页面交互主要采用B/S的结构,采用MVC及流式数据的设计思路进行规划设计。
2、前端数展现使用Echarts技术。与地图相关的报表使用百度地图提供的API。
3、后端实时数据,实时接入mysql。为了不影响线上系统的正常使用,同时能够将数据发送到大数据平台,本项目使用Canal来解析实时数据,Flume收集数据并数据发送到实时计算业务流程和离线计算两个流程中。实时数据处理流程使用Canal+Flume+Kafka+SparkStreaming等技术。离线计算使用HDFS+Hive+Azkaban等技术。
4、设计过程中对系统的可靠性、可扩展性以及性能进行了充分考虑和研究分析,争取通过良好的设计,在实现系统功能的前提下,最大化的提高系统性能和扩展性,减少将来的维护代价和其他成本。
适用人群:
1、对大数据Spark感兴趣的在校生及应届毕业生。
2、对目前职业有进一步提升要求,希望从事大数据行业高薪工作的在职人员。
3、对大数据行业感兴趣的相关人员。
第一章 项目概述
1课程内容
- 系统介绍
- 模块介绍
- 数据流程描述
- 逻辑架构设计
- 功能描述
- 系统架构
第二章 离线数据入库 - 数据上传
- 创建数据表
- 数据拆分
- 数据表加载
第三章 离线数据整理
- 业务SQL语句编写
- 整理SQL语句生成结果表的结构及字段
- 根据结果表所需的字段,在原始表中抽取该字段
- 数据加工及入库
- 创建索引
第四章 实时数据生成及计算
- Mysql 数据写入
- canal 解析mysql实时数据写入本地
- Flume收集数据将数据上传至集群
- SparkStreaming 实时计算
-
朋友圈不定时发福利(开通会员免费获取资源)
-
微信号
wqxzvip
点击我自动复制
© 版权声明
本站所有资源均来自互联网收集, 本站大数据爬虫负责收集不承担任何版权问题。所有资源均不出售,只免费分享给本站等级用户!如有内容侵犯到任何版权问题, 请发送版权相关证明与本站客服,一经核实将及时予与删除并致以最深的歉意。
THE END
暂无评论内容