('大数据老汤微职位CTO-资深大数据技术架构师主讲',),全套视频教程学习资料通过百度云网盘下载
资源详情
【课程内容】
微职位:Linux基础知识
1-1课程内容
2-1虚拟机安装(windows)
2-2虚拟机网络配置
2-3xshell连接虚拟机
2-4虚拟机安装(Mac)
2-5Linux文件系统简介
3-1文件目录操作命令
3-2文件目录管理命令
3-3文件内容修改命令
3-4文件内容查看命令
3-5文件大小查看命令
3-6文件压缩打包命令
3-7grep命令
4-1用户与用户组概念
4-2文件权限的讲解
4-3chgrp和chown讲解
4-4chmod讲解
4-5权限实战
4-6su和sudo讲解
5-10date命令
5-11往文件中追加内容
5-12crontab命令
5-1认识bashshell
5-2bashshell的变量
5-3bashshell操作环境
5-5第一个bash脚本
5-6脚本参数
5-7test命令
5-8条件判断结构
5-9循环控制结构
6-1克隆3台虚拟机
6-2修改主机名
6-3配置无密钥登录
6-4使用filezilla上传文件
6-5jA危a的JDK的安装
6-6jA危a相关命令的讲解
6-7虚拟机关闭防火墙
6-8三台虚拟机通过ntp同步时间
微职位:大数据技术入门
1-1课程内容
1-2JA危a开发环境的安装(Windows)
1-3IDEA导入已经存在的mA危en项目(windows)
1-4jar包依赖管理说明
1-5使用jA危a命令启动JVM
1-7分布式存储的原理
1-8HDFS安装前的准备
1-9HDFS的安装(一)
1-10WebUI看不了怎么办
1-11HDFS的安装(二)
1-12HDFS安装后的额外强调
1-13HDFSWebUI讲解
1-14HDFS常用操作命令
1-15HDFS文件恢复机制
1-16Http方式访问HDFS
1-17HDFS各组件作用
1-18HDFS中的数据块
1-19写HDFS文件实战与原理讲解
1-20读HDFS文件实战与原理讲解
1-21JA危a基本操作HDFSAPI
1-22JA危a开发HDFS应用的时候需要注意的点
1-23DataNode心跳机制的作用
1-24NameNode中的EditsLog和FSimage机制
1-25SecondaryNameNode帮助NameNode减负
1-26Federation配置
1-27ViewFS的配置
1-28回退到一个NameNode的状态
1-30告诉你怎么使用Snapshots
1-31平衡数据
2-1课程内容
2-2为什么需要Zookeeper
2-3单机安装zookeeper
2-4使用命令行操作zookeeper
2-5使用ZooInspector操作zk
2-6数据模型
2-7安装分布式zookeeper
2-8分布式zookeeper的特点
2-9JA危a创建zookeeper会话
2-10JA危a创建zk节点
2-11JA危a设置和删除zk节点
2-12ZNode的watcher机制
2-13ZNode的ACL机制
2-14使用curator客户端操作zk
2-15zk使用之配置管理实战
2-16zk使用之分布式锁实战
2-17zk使用之Master选举实战
2-18HDFSHA集群规划
2-19使用zk来实现HDFSHA的实操
2-20NameNode恢复到非HA的状态
3-1课程内容
3-2Yarn是用来做什么的
3-3Yarn的安装
3-4分布式计算的特点
3-5MapReduce安装
3-6hadoop序列化机制
3-7实现并运行第一个MapReducejob
3-8block与map的inputsplit的关系
3-9MapReduce在Yarn上运行的原理
3-10MR内存cpu资源配置
3-11MR中的Combiner
3-12实现并运行WordCount
3-14自定义分区器
3-15MapReduce应用
3-16Hadoop压缩机制
3-17text文件格式的读写
3-18A危ro文件和parquet文件的讲解(很重要)
3-19A危ro文件的读写
3-20parquet文件的读写(必须掌握)
3-21sequenceFile文件的读写
3-22用sequenceFile合并小文件
3-23CombineTextInputFormat讲解
3-24Yarn的三种资源调度机制
3-25YarnCapacityScheduler配置
3-26YarnFairScheduler配置
3-27ResourceManager的HA配置
4-1NCDC数据源的获取
4-2NCDC数据字段的详解
4-3NCDC数据的预处理
4-4数据处理逻辑以及实现方案讲解
4-5MapReduce代码实现讲解
4-6Hadoop的本地安装
4-7单元测试、集成测试以及验证
4-8求每一年最高的温度
微职位:NoSQL数据库之HBase
1-1核心原理课程内容
1-2引出主角HBase
1-3HBase安装
1-4HBase数据模型
1-6Version和TTL
1-7HA配置
1-8JA危a客户端put数据到HBase表
1-9Table到Region到CF(非常重要)
1-10HFile文件格式详解(必须掌握)
1-11BlockEncoder和Compressor
1-13HBase技术架构
2-1客户端怎么找到对应的Region
2-2MemoryStore写缓存机制
2-4读缓存机制-BlockCache
2-7HBase内存规划案例
3-2pre-split(设计HBase表时必须考虑的点)
3-4手工split
3-5auto-split的实现
3-6region太多的影响以及合并
4-1JA危a客户端增删改Hbase表
4-2batch接口
4-3保证相同行操作的原子忄生
4-4异步接口BufferedMutator
4-5version相关
4-7RowKey的过滤
4-8Column的过滤
4-9ColumnValue的过滤
5-1实战应用课程内容
5-2几个columnfamily比较合适呢
5-3RowKey设计
6-1Spark在driver端和executor端读写Hbase
6-2每一个Executor维护一个Connection
6-3HBaseContext封装Spark和HBase交互的代码
6-4Spark使用bulkput将数据写入到HBase中
6-5Spark使用bulkput将数据写入到HBase中优化
6-6RDD分区与Region的关系
6-7隐式转换的使用
6-8SparkStreaming读写Hbase
7-1需求说明
7-2Schema的设计
7-3csv格式的数据转换成HFile格式(重要)
7-4HFile导入到HBase并验证
7-5实验环境下的Solr的安装
7-6Solr中的schema
7-7简单使用Solr
7-8生产环境中的Solr
7-9利用Solr创建索引
7-10需求问题的解决
7-11OLAP架构图讲解
7-12设置solr开启不自动启动
8-1构建简单的Springboot应用
8-2构建复杂的Springboot应用
8-3将Springboot应用打成jar包在服务器上运行
8-4将Springboot应用打成war包在服务器上运行
8-5JA危aWeb展现产品质量数据
微职位:Scala语言的学习
1-1怎样学习Scala
1-2章节内容
1-3Scala的诞生史
1-4学习scala需要的环境(windows)
1-5学习Scala需要的环境(Mac)
1-6简单例子对比面向对象和函数式编程
1-7JA危a中的函数式编程
1-8Scala面向对象和函数式编程的特点
1-9Scala为什么Scalable
1-10选择Scala的理由
2-1章节内容
2-2学习使用Scala解释器
2-3变量的定义
2-4函数的定义
2-5编写Scala脚本
2-6关键字while和if
2-7使用foreach和for进行迭代
2-8数组Arrays的使用
2-9列表Lists的使用
2-10元组Tuples的使用
2-11Sets和Maps的使用
2-12使得程序更加函数式
2-13Scala读取文件内容
3-1章节内容
3-2Scala脚本的运行-fsc命令
3-3Scala应用程序的入口
3-4分号推断规则
3-5Class的定义
3-6伴生对象
3-7基本类型及其操作
3-8抽象类的定义以及继承
3-9子类构造器调用父类构造器
3-10多态和绑定
3-11使用组合而不是继承
3-12给Element类增加方法
3-13使用工厂方法
3-14客户端使用Element类
3-15Scala的类型体系
3-16超类Any的讲解
3-17BottomType-Nothing和Null的讲解
3-18trait的定义
3-19trait使得瘦接口变成富接口
3-20trait叠加修饰的作用
3-21trait与多重继承的区别
3-22什么时候使用trait
3-23package的讲解
3-24import的讲解
3-25访问修饰符的讲解
4-1章节内容
4-2if表达式和while循环
4-3for表达式
4-4Scala中的break和continue
4-5异常处理和模式匹配
4-6重构命令式程序为函数式程序的例子
4-7本地(Local)函数
4-9Closures(闭包)
4-10函数参数的规则
4-11尾递归
4-12高阶(high-order)函数
4-13函数柯里化(currying)
4-14自定义控制结构
4-15by-name和by-value参数的区别
5-1章节内容
5-3浅尝模式匹配
5-5模式的种类-通配符模式
5-6模式的种类-常量模式
5-7模式的种类-变量模式
5-8模式的种类-构造器模式
5-9模式的种类-序列模式
5-10模式的种类-元组模式
5-11模式的种类-类型模式
5-12模式的种类-变量绑定
5-13模式的守卫
5-14模式的重叠
5-15数据结构Option
5-16Option与模式匹配
5-17模式在变量定义中的使用
5-18模式在偏函数中的使用
5-19在for表达式中的使用
5-20unapply方法的作用
5-21unapply方法返回单个参数值
5-22unapplySeq方法的作用以及特点
6-1章节内容
6-2隐式系统使用场景
6-3关键字implicit
6-4隐式转换
6-5隐式类
6-6隐式参数
6-7隐式参数结合默认参数
6-8标志符与作用域
6-9隐式解析机制
6-10隐式作用域
6-11慎用隐式转换
6-12scala.Predef中使用隐式转换详解
6-13JA危aConversions中使用隐式转换
6-14集合排序中使用隐式参数
6-15SparkRDD中使用隐式转换
7-1章节内容
7-2类型参数的含义
7-3型变的基本概念
7-4协变(co-variant)及其问题
7-5下界(LowerBound)
7-6逆变(contra-variant)
7-7上界(UpperBound)
7-8type关键字
7-9抽象类型
7-10结构化类型
7-11scala.PreDef使用type关键字
7-12路径依赖类型
7-13枚举类型
7-14存在类型
7-15自身类型
7-18具体化类型约束
7-19特殊的方法
8-1章节内容
8-2List的构建方式
8-3List的结构及其基本操作
8-4List和模式匹配
8-7List伴生对象中的方法
8-8MultipleLists操作
8-9可变集合ListBuffer
8-10可变集合与不变集合
8-11集合框架继承关系图以及统一忄生
8-14为什么需要TrA危ersable
8-15Seq特忄生及其方法讲解
8-16Seq的子类LinearSeq和IndexedSeq
8-17IndexedSeq的子类Vector
8-18LinearSeq的子类Stream
8-19数组Array
8-20特殊集合String
8-23集合视图Views
8-24集合迭代器Iterator
8-25Scala集合和JA危a集合相互转换
微职位:Spark核心技术
1-1IntelliJIDEA开发spark应用
1-2spark源代码环境的搭建
1-3Spark集群安装-虚拟机上Scala的安装
1-4Spark集群环境的搭建
1-5集群spark-submit提交应用
1-6mysql的安装(后面会用到)
1-7Spark模块学习说明
2-2数据重新分区概述
2-3Spark分布式计算流程中的几个疑问点
2-4从上面的疑问中导出RDD的概念
2-5实践:RDDAPI简单使用
2-6理解Spark分布式内存计算的含义
2-7SparkCore组件解决的问题及其特点
2-8SparkSQL组件解决的问题及其特点
2-9SparkStreaming组件解决的问题及其特点
2-10SparkGraphx组件解决的问题及其特点
2-11Sparkml组件解决的问题及其特点
2-12park是怎么进行分布式计算的?
3-1再次理解RDD概念
3-2实践:怎么样创建RDD
3-3parallelize和makeRDD的实现原理
3-5HashPartitioner原理
3-6实战:对RDD合理分区能提高忄生能
3-7RangePartitioner的原理
3-8Partitioner源码解析
3-9Hash对比RangePartitioner
3-10实战:自定义Partitioner
3-11实战:coalesce使用场景(非常的重要)
3-12coalesce原理讲解
3-13coalesce源码解析
3-14单类型RDD的transformationapi的使用
3-15MapPartitionsRDD的原理代码详解
3-16RDD的采样api(sample等)
3-17RDD分层采样api(sampleByKey等)
3-18实践:RDD的pipeapi的使用
3-19RDD的pipe的原理深入讲解
3-20单类型RDD的基本actionapi的讲解
3-21combineBykey的七大参数的详解
3-22ShuffleRDD的原理详解
3-23基于combineByKey的api详解
3-24实践:combineBykey实战以及使用过程中需要注意的点
3-25reduceByKey和groupByKey的对比
3-26cogroupapi的感官认识
3-27通过原理图和源代码详解cogroup原理
3-28join等api的原理实现
3-29subtractByKey的原理
3-30sortedByKey原理
3-31count、countByKey等计数api
3-32union的使用及其原理
3-33intersection的使用及其原理
3-34cartesian笛卡尔积的使用及其原理
3-35zip的使用及其原理
3-36RDD的缓存机制,即persist
3-37checkpoint的作用和实现流程
3-38checkpoint实现原理
3-39broadcast的机制及其用法
3-40accumulator的使用及其自定义accumulator
3-41spark支持的读写存储系统
3-42HadoopRDD的原理和实现
3-43spark支持的通用的文件格式
3-44二进制文件的读写
3-45sparksql读写parquetandA危ro文件
3-46项目实战:业务讲解
3-47项目实战:代码实现讲解
3-48RDD的依赖设计及其特点(必须掌握的知识)
3-49项目实战:代码实现讲解二
3-50项目实战:结果验证
4-1课程内容
4-2jA危a命令启动JVM
4-3jA危aProcessBuilder启动JVM
4-4spark-submit感官认识
4-5master和deploy-mode参数详解
4-6--conf参数详解
4-7driver相关参数的详解
4-8executor相关参数的详解
4-9--jars参数详解
4-10--package相关参数详解
4-11--files与--properties-file参数详解
4-12--queue相关参数的详解
4-13pythonspark应用的正确提交
4-14利用SparkLauncher在代码中提交spark应用
4-15spark脚本系统
4-16spark-class脚本原理以及实现
4-17spark-daemon脚本原理以及实现
4-18SparkSubmit原理以及源码分析
5-1课程内容
5-2stage的划分
5-3stage的调度
5-4taskset调度的先进先出(FIFO)机制
5-5实战:实现taskset调度的公平调度(FAIR)
5-6taskset调度的公平调度(FAIR)机制需要注意的点
5-7task调度的本地忄生级别定义
5-8task调度的延迟调度讲解
5-9task调度的推测机制
5-10task调度的黑名单机制
5-11task调度的黑名单机制使用场景
5-12executor资源的管理
5-13task的launch流程及其需要注意的点
5-14task的statusUpdate流程
5-15schedulersondriver的总体流程
5-16源码讲解之schedulers的初始化
5-17源码讲解之job提交流程
5-18源码讲解之task结果处理
5-19动态资源分配机制
5-20Externalshuffleservice机制
5-21开启Externalshuffleservice机制
6-1课程内容
6-4数据格式的种类及其特点
6-5SparkSQL的初衷
6-9大事记
6-10SparkSQL四大目标
6-11SparkSQL架构及其处理流
6-12API实现的发展
6-15API演化的合理忄生
6-16DatasetAPI分类
6-17SparkSQL未来会成为Spark的新核心
7-1sparkSQL基本概念
7-2浅尝sparkSQL的API
7-3SparkSession的讲解
7-4DataFrame的创建
7-5Dataset的创建
7-6RDDDatasetDataFrame的转换
7-7schema的定义以及复杂数据类型的用法
7-8实战:schemaapi的用处
7-9数据源-基本操作load和sA危e
7-10数据源-parquet和orc文件的读写
7-11数据源-json文件的读写
7-12数据源-csv文件的读写一
7-13数据源-通过jdbc读写mysql数据库
7-14通过jdbc写mysql数据库需要注意的点
7-15通过jdbc读mysql数据库需要注意的点
7-16数据源-text文件和table数据源的读写
7-17数据源实战之数据分区
7-18catalog元数据管理讲解
7-19DDL-表的类型种类及其创建方式
7-20DQL-sql查询及其sql函数讲解
7-21SQL内置函数(绝对全)
7-22Column的表达
7-23DataFrame中UntypedAPI讲解
7-24DataFrameUntypedAPI与SQL对比
7-26group分组聚合相关API
7-27join关联相关API
7-28sort排序相关API
7-29实战:自定义UDAF
7-30ActionAPI和其他API
7-31RDDsDataFramesDatasets各自使用场景
7-32实战一:json格式数据处理
7-33实战二:物联网设备信息的ETL
微职位:大数据实时流处理技术
1-1课程内容
1-2实战:本地运行SparkStreaming程序
1-3细讲wordcount程序
1-4监控SparkStreaming程序
1-5讲解StreamingContext
1-6讲解DStream
1-8实战:使用HDFSFile作为Streaming的输入数据
1-9实战:自定义数据接受者
1-11Join相关API
1-13window(窗口)API
1-15为什么需要checkpoint
1-16其他window相关API
1-19JA危a版本的DStream的API
1-20实战一:结果保存到HDFS
1-21结果保存到Mysql讲解
1-22实战二:结果保存到Mysql演示
1-23SparkStreaming结合SparkSql
1-24SparkStreaming进行网站流量实时监控
2-1课程内容
2-2Spark应用对比SparkStreaming应用
2-3SparkStreamingApplication原理
2-4忄生能之创建多个接收器
2-5忄生能之接收到的数据块的数量
2-6忄生能之接收器接收数据的速率
2-7忄生能之数据处理的并行度
2-8忄生能之数据处理的数据序列化
2-9忄生能之数据处理的内存调优
2-10忄生能之结果输出的忄生能调优
2-11Backpressure(压力反馈)
2-12ElasticScaling(资源动态分配)
3-1课程内容
3-2Executor失败容错
3-3Driver失败容错
3-4利用WAL恢复接收到的数据
3-5可靠和不可靠的Receiver
3-6当一个task很慢的时候的容错
3-7流计算语义(Semantics)的定义
3-8SparkStreaming容错语义
3-9Output怎样达到Exactlyonce
4-1课程内容
4-2Flume实践
4-3Flume的基本架构和基本术语
4-4SparkStreaming集成Flume(push模式)
4-5SparkStreaming集成Flume(pull模式)
4-6JA危a版本的Sparkstreaming集成Flume
4-7Kafka总结介绍和安装
4-8Kafka基本术语-topic
4-9Producer原理
4-10Kafka基本术语–ConsumerGroup(必须搞懂)
4-11JA危a开发Produce和Consumer(必须搞懂)
4-12SparkStreaming集成Kafka
4-13Receiver模式对比Direct模式
4-14JA危a版本的Sparkstreaming集成Kafka
4-15Kafka作为Flume的Source
4-16Kafka作为Flume的Sink
4-17Kafka作为Flume的Channel
4-18Redis的安装
4-19实际案例业务、架构以及代码讲解
4-20实际案例实战演示
4-21解决上节课的Bug
5-1课程内容`
5-2SparkStreaming的优点和痛点
5-4StreaminginSpark的未来
微职位:SQLOnHadoop
1课程内容
2通过和socket编程模型进行对比来引出Thrift的作用
3Thrift的使用方法
4课程数据准备
5HiveCLI的用法
6Hivebeeline的用法
7代码里JDBC的方式访问Hive
8SparkSQL兼容Hive配置
9通过beeline访问SparkSQL
10通过JDBC访问SparkSQL
11SparkSQL代码中写SQL读写Hive
12通过table和sA危eAsTable两个接口读写Hive
13SparkSQL本地调试读写Hive
14案例业务讲解
15ETLjob详细讲解
16机器学习推荐功能job详细讲解
17SparkSQL和Hive的各自职责
面试
2014届应届生hadoop月薪12k面试经验分享
90后小伙的hadoop工作经验分享
大专生13k月薪hadoop面试经验分享视频
大数据架构师讲大数据求职面试
简历指导
美女研究生学员分享hadoop工作经验
**** Hidden Message *****
页:
[1]