澳门信誉棋牌网站

课程包含Hadoop、HDFS、MapReduce、数据仓库Hive、分布式数据库HBase、数据迁移工具 Sqoop、分布式日志框架Flume、分布式消息系统Kafka、编程语言Scala、分布式内存计算框架Spark、Spark Streaming、Spark SQL等。
实战课程包含电子商务网站商品交易数据分析的技术实现、搜索引擎海量日志分析挖掘的技术实现。

  • 掌握大数据项目开发的必备技术,具备项目设计、数据采集、清洗、分析建模、技术实现 的能力,成为具有实战经验的大数据开发工程师。

    澳门信誉棋牌网站能够全面掌握大数据的架构原理和使用场景;

    澳门信誉棋牌网站 全面掌握大数据的架构方式及搭建过程;

    熟练掌握大数据技术开发思想;

    澳门信誉棋牌网站 能利用平台进行大数据分析;

    能深入真实项目进行大数据的实战开发,达到大数据开发工程的实战要求

第一
阶段
Hadoop
课程介绍:详细讲解Hadoop生态系统,包括操作与开发;详细讲解HDFS和Map-Reduce的功能及作用;
通过实验机完成MapReduce原理、运行流程、压缩数据处理、作业调度、计算器等程序开发。
第二
阶段
数据仓库Hive
课程介绍:Hive是基于Hadoop构建的数据仓库分析系统,通过学习掌握Hive的函数、Hive数据的加载、
Hive的DDL操作、自定义函数(UDF)等内容,达到使用Hive进行查询、汇总、分析数据的能力。
第三
阶段
分布式 数据库HBas 数据迁移工具Sqoop
课程介绍:HBase是Hadoop生态系统中的重要一员,主要用于海量结构化数据存储;通过学习
对HBase表设计、表操作、数据操作、Java API等内容,掌握对HBase系统的开发及使用。
第四
阶段
分布式日志框架Flume
课程介绍:Flume对海量日志进行采集、聚合和传输的主流大数据工具;课程内容包含Flume应用场
景、FlumeNG、FlumeOG、Flume的核心组件、Flume的架构、Flume的source、sink配置说明等。
第四
阶段
Kafka流式数据采集
课程介绍:Kafka是分布式的消息队列,广泛应用于实时数据处理。学习内容包含Kafka的体系结构、
安装模式及安装部署、Topic、Producer、Consumer、发布订阅消息以及Kafka JAVA开发等。
第五
阶段
Scala
课程介绍:本门课程是Spark分布式内存计算平台的前置技能;学习内容包含解释器、变量、
常用数据类型、数组、映射、元祖、包、引入、继承、操作符、高阶函数、集合等。
第五
阶段
Spark
课程介绍:Spark是一款高性能的分布式计算框架,比MapReduce计算快百倍;本课程内容全面涵盖了
Spark生态系统、Spark与Hadoop对比、开发环境搭建、RDD、编程模型、Web监控等内容。
第六
阶段
Spark Streaming
课程介绍:Spark Streaming是用户结合流式、批处理和交互式查询应用的实时计算框架;本课程内容
详细讲解原理与特点、适用场景、Dstream操作、容错、性能优化和内存优化等。
第六
阶段
Spark SQL
课程介绍:Spark SQL的出现,使得SQL-on-Hadoop的性能相对于Hive有了显著的提高。达到Spark兼
容Hive的功能。本课程详细讲解特点、运行架构、数据源、数据缓存、DataFrame等。
第七
阶段
实战案例 《搜索引擎日志数据统计分析》
本课程需要学员独立完成项目开发,掌握Hadoop系统架构设计以及项目分析流程;
通过对用户搜索记录数据的清洗,分析指标内容,得出关键词排行榜、用户停留时间最高页面等。
第八
阶段
实战案例 《电子商务平台大数据分析》
本课程需要学员独立完成项目开发,掌握Spark系统架构设计以及项目分析流程;
本课程主要讲解搭建电商的数据处理平台、数据统计、分析及可视化技术的应用开发流程。
新萄京娱乐场国际品牌新葡萄棋牌网址威利斯棋牌网站澳门威斯尼斯人电子游戏澳门威斯尼斯人76543