北京 切换校区

全国24小时免费热线

400-009-1906

以下课程火热报名中

尚学堂开班提醒

尚学堂大数据就业捷报频传

这,只是他们的起步薪水!

我们2018年统计,仅是学员毕业后进入京东(135)人,阿里(41)人,百度(53)人,
今日头条(78)人,腾讯(71)人等等

他们的 月薪普遍超过2万,成长为技术大牛、CTO、 成功创业等的尚学堂学长,层出不穷!

1901班

最高薪资月薪 38000

平均月薪 24550

平均年薪 25.4

1812班

最高薪资月薪 31000

平均月薪 27550

平均年薪 28.5

1810班

最高薪资月薪 35000

平均月薪 24550

平均年薪 23.5

1809班

最高薪资月薪 50000

平均月薪 21550

平均年薪 23.5

1806班

最高薪资月薪 34000

平均月薪 21550

平均年薪 23.5

以上统计的,仅是学员毕业后首份工作的基本薪资,且不包含绩效、奖金、补助等各项福利。

点击查看,连续8期全部就业名单 >>

狂撒¥2019 猪年礼券200-3000元(仅限前100名)

不负春光,和学习恋爱

部分学员就业喜报

前沿课程+雄厚师资+变态管理=高薪大数据人才屡创新高

这,就是尚学堂大数据学院

2019,欢迎您来,大牛师资带你尝尝大数据的甜头!

肖斌老师 大数据学院院长

肖斌老师

从事3年多的Hadoop开发和维护工作。擅长基 于Hadoop的海量数据平台的搭建,TB级数据的 处理和基于Hadoop的开发和集群的维护。擅长 机器机器学习,掌握各种机器学习开发库 (Mahout,spark mllib,tensorflow等)。

周志垒老师 大数据学院教学总监

周志垒老师

10年企业工作经验,3年大数据教学经验。参与进出口银行,建行,四川农商行,民生银行相关数据分析、大数据平台建设。先后服务飞机租赁融资公司,歌华,联通,移动等多行业的数据分析

吴百豹老师 大数据资深讲师

吴百豹老师

北京邮电研究生毕业,原清华同方下子公司大数据部门经理。多年软件开发和大数据开发经验。多年企业内部大数据培训经历。《spark从零到精通》系列视频创作者。

连鹏举老师 大数据资深讲师

连鹏举老师

从事大数据工作多年,具有丰富的专业知识,熟练使用Oracle,Mysql,PostgreSql数据库,熟悉Struts2,Hibernate,Spring,SpringMVC,Mybatis等主流Java开源框架以及Hadoop,Kafka,Hive,HBASE Storm,Spark等

贾振锋老师 大数据资深讲师

贾振锋老师

四年项目开发及教育培训行业经验,曾任职于中科软科技技术有限公司等知名企业,负责及参与开发多项大型项目。教学思路清晰,授课风格深受广大同学喜爱。

焦润老师 大数据资深讲师

焦润老师

多年JAVAEE开发经验,多年的大数据开发,对大数据领域中的常用框架hadoop、hive、flume、kafka、storm、spark等有丰富的实战经验和研究,擅长从海量数据中结合业务梳理出计算模型。熟悉企业虚拟化技术。

大数据174.35G视频 / 685套课后作业 / 北京1500家企业面试题

戳我领取 >>

师资教学怎么样?课程项目怎么样?口碑怎么样?

免费公开课让您亲自体验下。

大牛引路,实战贯穿!

  • 智慧交通项目
  • 电商日志分析项目
  • 游戏运营分析项目
  • App个性化推荐项目
  • 联盟广告分析项目

阿里巴巴基于杭州智慧交通项目

智慧交通是指在交通领域中充分运用大数据、云计算、互联网、机器学习、等技术,通过高新技术汇集交通信息,对交通管理、交通运输、公众出行等等交通领域全方面以及交通建设管理全过程进行管控支撑,使交通系统在区域、城市甚至更大的时空范围具备感知、互联、分析、预测、控制等能力,以充分保障交通安全、发挥交通基础设施效能、提升交通系统运行效率和管理水平,为通畅的公众出行和可持续的经济发展服务。

项目模块:

天网搜车,智能研判,轨迹分析,套牌分析,稽查布控,跟车分析,昼伏夜出,统计分析等15大模块。

技术架构:

hdfs +spark +kafka +flume + spark Streaming +spark MLlib+redis

某大型电商日志分析项目

日志分析项目是以数据为驱动,关注电商运营每一个环节,贯穿不同运营阶段,随时发现运营问题,调整运营计划。一般来说电商平台每天会产生100G到50T左右的日志数据。有了海量的数据就可以挖掘出有价值的决策依据。

需求模块:

用户分析,流量分析,活动效果分析,渠道分析和订单分析等8八模块

技术架构:

nginx + HDFS+ mapreduce +Hive+hbase +spark +flume +sqoop+mysql +D3

大型游戏运营分析项目

大型网络游戏每天会产生10G—100G的数据,通过大数据分析可以帮助追踪注册转化率数据、快速定位注册刷号行为。通过对关卡的访问数,成功率,失败原因进行分析,来合理调整难易度。游戏生产虚拟物品,而不是印钞。您需要找到玩家在不同阶段对哪类物品有最强依赖,才能刺激痛点策划拉收。

项目模块:

玩家在线分析,等级分析,任务难度分析,收入分析,虚拟消费分析等7大模块。

技术架构:

linux+hdfs+spark+mapreduce+hive+hbase。

App个性化推荐项目

推荐系统是利用 大数据和数据挖掘技术向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。

功能模块:

清洗数据,构建训练集,训练模型,评估模型,推荐APP等

技术架构:

hdfs +hive +hbase +kafka +spark +spark MLlib+ python+redis +dubbo

联盟广告分析项目

广告分析是指用大数据来分析和测定广告促进商品或劳务销售的效果。可以检验广告目标是否正确、广告媒体运用是否得当、广告分布时间与频率是否适宜、投入的广告费用是否合理等,从而进一步检验出广告决策是否正确、广告创意设计是否需要改进等。广告分析,能较客观地测定广告效果所取得的效益,提高广告主对广告的信心,也有利于广告公司的业务发展。

项目模块:

联盟广告分析项目-项目模块:这块没有提供文案

技术架构:

nginx + HDFS+ mapreduce +Hive+hbase +spark +flume +sqoop+mysql +D3

其他培训机构一直在模仿我们的项目,却讲不明白项目的思路,大数据实战项目,思路还是原装的好

领取hadoop实战书一本 >>

大数据课程大纲

第一阶段

1、学员可以自主选择 2.5个月 或者 5.5个月 的J2EE课程,学完该阶段考试合格进入大数据阶段!

2、有基础学员可以直接参加考试,合格直接进入大数据阶段。

3、在职学员可直接进入周末班。每月一班随到随学。

第二阶段
linux和高并发

第二阶段
linux和高并发

第二阶段
linux和高并发

01 Linux基础

操作系统概述

Linux内核与GNU介绍

Linux发行版介绍

虚拟化安装centos

虚拟网络编辑器

规划多主机网络通信

虚拟化管理快照与克隆

SSH客户端使用与配置

02 Linux初级

Linux命令行原理

help内部命令帮助

man命令8种帮助手册

df/du文件系统分析

文件系统HFS规范

文件系统管理命令

bash的{}、$扩展

03 Linux文本操作

文件内容预览命令

管道的使用

基于管道的文件游标预览

日志文件追踪

vi命令的快捷操作

vi命令的编辑模式

vi命令的末行模式

awk脚本案例:统计报表

04 Linux文本分析

grep检索文件

正则表达式

文本分析命令cut

文本分析命令sort

文本分析命令wc

文本分析命令sed

sed案例:正则和s命令另类使用

文本分析命令awk

05 Linux管理

系统服务配置文件

用户管理

组管理

权限管理

案例:多用户角色资源绑定

网络管理

进程管理

后台服务管理

06 Linux安装管理

操作系统软件安装原理

源码编译安装及原理

RPM包管理机制原理

RPM的查询、安装、卸载

YUM仓库原理

YUM本地、局域网仓库源配置

案例:维护多个YUM源

YUM安装中文帮助文档

07 Linux高级

shell原理、命令原理

shell解释器的4种脚本执行方式

shell函数、内部命令、外部命令总结

文件描述符与重定向

输出重定向的6种方式

输入重定向的4种方式

案例:重定向http协议到网站请求主页

条件表达式

08 Linux脚本编程

本地、局部变量

位置、特殊变量

父子进程、环境变量

linux中for进程原理

管道的子进程执行原理

引用、命令替换扩展

命令状态与逻辑判断

算数表达式及bash扩展

09 Linux脚本案例

shell脚本:用户管理

shell脚本:文件管理

shell脚本:增强for循环遍历文件

shell脚本:游标for循环遍历文件

shell脚本:重定向while循环遍历文件

shell脚本:管道+while循环遍历文件

bash解释器的7中命令扩展总结

流程控制语句&bash词的拆分扩展

10 网络基础

高并发及解决方案概述

TCP/IP协议:应用层

TCP/IP协议:传输控制层

TCP/IP协议:TCP协议/报文/三次握手

TCP/IP协议:网络层

TCP/IP协议:路由表和IP协议原理

TCP/IP协议:链路层

TCP/IP协议:ARP协议及交换机原理

11 四层负载均衡

四层负载均衡LVS拓扑

NAT网络原理

LVS的DNAT模式分析

LVS的DR模式分析

LVS的TUN模式分析

LVS的静态调度算法

LVS的动态调度算法

内核配置ARP协议

LVS的命令讲解

12 Keepalived实现高可用

高可用概述

健康检查及故障迁移策略

分布式选主策略

keepalived原理

keepalived配置文件详解

基于keepalived的高可用LVS

高可用验证

后端健康检查验证

LVS的DR模式实验搭建

13 Linux基础

单点性能压力下的面向服务开发理论

反向代理服务器原理

Nginx介绍

Nginx和Apache的httpd对比

IO的阻塞模型和异步非阻塞模型

Nginx角色框架原理

Nginx的内核参数配置

Nginx的内核sendfile零拷贝原理

Nginx的TCP配置

14 Nginx的反向代理和负载均衡

Nginx的虚拟服务器原理

Nginx的location匹配规则

Nginx的自动索引

Nginx的反向代理服务器配置

Nginx的upstream负载均衡配置

Nginx的DNS负载均衡配置

Nginx负载均衡下数据一致性解决方案

15 Session和缓存

Session一致性问题

Session复制

Session共享

Session同步

Memcached的缓存

K-V格式缓存

Tomcat和Memcache

缓存服务器

第三阶段
Hadoop生态体系

第三阶段
Hadoop生态体系

第三阶段
Hadoop生态体系

第三阶段
Hadoop生态体系

第三阶段
Hadoop生态体系

第三阶段
Hadoop生态体系

01 Linux基础

1T文件处理

Hadoop历史

Hadoop架构

NameNode讲解

SecondaryNameNode讲解

DataNode与副本防治策略

HDFS权限

HDFS安全模式

HDFS文件上传流程

02 HDFS高级概念

hadoop完全分布式集群搭建

hadoop3新特性

NameNode的Federation

NameNode-HA

NameNode-HA集群搭建

NameNode-HA手动切换

NameNode-HA自动切换

java客户端操作HDFS

HDFS读文件流程

03 MR

MapReduce简介与原语

MapReduce执行流程

二次排序

MapReduce作业提交流程

MapReduce作业执行流程

YARN-ResourceManager-HA搭建

运行自带的wordcount程序

手写wordcount程序

伪分布式集群搭建

04 MR源码解析

MapReduce作业提交流程源码解析

作业切片计算的源码解析

MapTask输入方式的源码解析

MapTask执行流程源码解析

MapTask输出方式的源码解析

MapTask环形缓冲区源码解析

RedueTask的shuffle源码解析

ReduceTask分组的源码解析

ReduceTask输出的源码解析

05 MapReduce案例

天气案例需求分析

天气案例映射为MR原语

天气案例键值对设计

天气案例排序比较器分组比较器设计

天气案例开发和运行

好友推荐需求分析

好友推荐映射为MR原语

好友推荐键值对设计

好友推荐开发和运行

06 MapReduce案例

PageRank简介及算法介绍

PageRank映射为MR原语

PageRank键值对设计

PageRank编码和运行

TFIDF简介及算法

TFIDF映射为MR原语

TFIDF键值对设计

TFIDF编码和运行

itemCF简介及算法

07 Hive介绍及架构

hive的介绍

数据仓库概念讲解

数据仓库与数据库区别

Hive的架构原理

Hive元数据讲解

Hive的使用场景

Hive的优缺点

Hive的执行引擎

Hive操作符

08 Hive架构

linux环境下mysql安装

mysql登录权限修改

Hive三种安装搭建模式

Hive元数据存储到mysql

基于内存数据库模式搭建

基于远程数据库模式搭建

基于远程数据库服务搭建

Hive配置文件讲解

Hive命令操作

09 Hive DDL1

Hive基础数据类型

Hive复杂数据类型

Hive数据类型转换

Hive创建数据库

Hive创建表三种方式

Hive创建管理表

Hive创建外部表

Hive数据读取规则Row Format

Hive语法解析

10 Hive DDL2

Hive数据读取规则 Serde

Hive静态分区管理

Hive动态分区管理

Hive删除表

Hive修改表

Hive分桶表管理

Hive视图

Hive索引

itemCF编码和运行

11 Hive DML

Hive从本地加载数据

Hive从hdfs加载数据

Hive通过查询插入数据

Hive插入数据到指定目录

Hive insert values插入

Hive事务管理

Hive事务特性

Hive事务配置

Hive修改数据

12 Hive查询

Hive全表查询

Hive条件查询

Hive分组查询

Hive运算符

Hive内置函数

Hive自定义函数

Hive表连接

Hive排序方式

Hive嵌套查询

13 Hive访问方式

Hive命令行方式

Hive元数据管理

Hiveserver2讲解

Hive beeline客户端讲解

Hive JDBC操作

Hive参数

Hive变量

Hive脚本运行方式

Hive GUI方式

14 Hive安全管理

Hive授权模式

Hive Legacy Mode

Hive 基于SQL标准授权模型

Hive 基于元数据授权模型

Hive角色管理

Hive授权命令

Hive回收权限命令

Hive删除数据

Hive清空数据

15 Hive存储及压缩

Hive存储压缩管理

Hive列式存储

Hive行式存储

Hive textfile

Hive sequencefile

Hive orc file

Hive parquet file

Hive map端输出

Hive reduce端输出

16 Hbase介绍及架构

hbase介绍

NoSQL介绍

Hbase特点

Hbase存储数据结构

Hbase数据模型

Hbase表结构介绍

Hbase架构图

Hbase角色

Hbase内存结构介绍

Hbase存储数据结构LSM树

17 Hbase架构及操作

Hbase standalone模式安装

Hbase 完全分布式安装

Hbase 高可用

Hbase搭建注意

Hbase基本命令

Hbase DDL命令

Hbase DML命令

Hbase命名空间命令

Hbase写数据流程

Hbase读数据流程

18 Hbase Java API

Hbase创建表

Hbase删除表

Hbase插入数据

Hbase更新数据

Hbase删除数据

Hbase获取一条数据

Hbase获取某个范围的数据

Hbase过滤器

Hbase与MR集成

Hbase与hive集成

19 Hbase压缩存储

Protobuffer讲解

Protobuffer安装

Protobuffer配置基本类型

Protobuffer配置集合类型

Protobuffer生成Java类

Hbase读取Protobuffer生成的类

Hbase压缩存储

20 Flume架构

Flume日志收集工具

Flume agent架构

Flume组件

Flume集群讲解

flume不同架构介绍

flume安装

flume配置信息

flume单台安装

flume集群安装

flume高可用讲解

21 flume source讲解

Avro source

Thrift source

Exec source

Spooling directory source

Kafka source

Netcat source

自定义Source

Source的分类

22 flume sink讲解

Hdfs sink

Hive sink

Hbase sink

Avro sink

Thrift sink

Logger sink

Kafka sink

自定义Sink

23 Sqoop介绍及架构

Sqoop简介

ETL讲解

Sqoop架构图

Sqoop架构设计

Sqoop版本介绍

Sqoop导入

Sqoop导出

Sqoop安装

24 Sqoop操作

Sqoop导入数据到hdfs

Sqoop导入数据到hive

Sqoop导入数据到hbase

Sqoop通过查询语句到hdfs

Sqoop导出数据到mysql

导出配置

Hdfs配置

Hbase配置

25 zookeeper

分布式协调框架

Zookeeper背景与介绍

分布式zookeeper环境及安装

Zookeeper源语命令操作

关于节点类型、版本、元数据信息的意义

Zookeeper 的api 环境java操作集群演示

事件注册与节点的变更

基于zookeeper的分布式协调案例

26 ElasticSearch

ElasticSearch的现状与前景

Lucene框架与倒排索引原理

Lucene框架在el search搜索引擎中的作用

ElasticSearch全分布式特性

ElasticSearch的环境要求与安装

Curl命令与rest风格的使用

Api搜索项目演示1

Api搜搜项目演示2

27 CDH

国内外大数据平台介绍

Cloudera产品介绍

什么是CDH

什么是cloudera manager

什么是cloudera manager service

cloudera manager框架原理

集群基础设施配置

纯手工安装cloudera manager

28cloudera manager使用

cloudera manager部署CDH

cloudera manager管理主机

cloudera manager管理集群

cloudera manager管理服务

cloudera manager管理实例

cloudera manager管理配置

cloudera manager管理监控

cloudera manager管理资源

service的dashboard

29 Hue的使用

Hue介绍

Hue安装

Hue的HDFS管理与使用

Hue的YARN管理与使用

Hue的HIVE管理与使用

Hue的Oozie管理与使用

Hue的metadata管理与使用

Hue的用户管理与使用

30 Impala的安装

Impala介绍

内存计算与MR,SPARK计算的比较

impala框架角色讲解

impala的安装

impala的命令行使用

impala的命令参数详解

impala的内部命令详解

service图表使用

service图表创建

第四阶段
Spark生态体系

第四阶段
Spark生态体系

第四阶段
Spark生态体系

第四阶段
Spark生态体系

第四阶段
Spark生态体系

01 Scala基础语言应用

Scala背景介绍

Scala语言六大特性

Scala下载安装配置

Scala IDE开发Scala配置

IDEA 开发Scala配置

Scala类型推断机制

Scala数据类型

Scala基本语法

Scala类和对象

Scala 循环、判断

02 Scala函数编程

Scala函数定义

Scala递归函数

Scala默认值函数

Scala可变参数函数

Scala匿名函数

Scala嵌套函数

Scala偏应用函数

Scala高阶函数

Scala柯里化函数

ScalaActor通信模型

03 Scala字符串、集合

Scala String操作

Scala Array 操作

Scala可变数组操作

Scala List 操作

Scala 可变列表操作

Scala Set 操作

Scala 可变Set操作

Scala map 操作

Scala 可变map操作

Scala 元组操作及要点

04 Scala高级应用

Scala伴生类

Scala伴生对象

Scala样例类

Scala样例类案例

Scala Trait要点

Scala Trait 案例

Scala match匹配

Scala隐式值操作

Scala隐式参数操作

Scala隐式函数操作

Scala隐式类操作

05 Spark基础使用

Spark技术介绍

Spark技术站详解

Spark演变历史

Spark与MR的区别

Spark 基于eclipse配置

Spark基于IDEA配置

Spark运行模式介绍

Spark集群搭建

Spark配置选项详解

Spark Pi 任务提交运行

Spark客户端搭建

06 Spark核心RDD

Spark编程核心RDD

SparkRDD原理及使用

RDD结构及注意点

RDD五大特性

RDD弹性原理

RDD分布式原理

RDD容错原理

coalesce算子使用

zip,zipWithIndex使用

07 Spark 转换算子

map算子使用

flatMap算子使用

filter算子使用

sample算子使用

reduceByKey算子使用

SortByKey算子使用

Join、union算子使用

Cogroup算子使用

distinct,使用

repartition算子使用

08 Spark行动算子

Foreach算子使用

Take算子使用

SaveAsTextFile使用

Count算子使用

Take算子使用

Collect算子使用

First算子使用

CountByKey使用

CountByValue使用

Reduce使用

09 Spark 持久化算子

持久化数据级别分类

持久化算子cache使用

Cache要点注意事项

持久化算子persist使用

Persist要点注意事项

持久化算子Checkpoint

Checkpoint执行流程

Checkpoint注意事项

Checkpoint使用优化

Spark任务提交参数详解

10Spark任务提交方式及参数

Standalone-client模式原理

Standalone-client模式流程详解

Standalone-cluster模式原理

Standalone-cluster模式流程详解

Yarn-client模式原理

Yarn-client模式流程详解

Yarn-cluster模式原理

Yarn-cluster模式流程详解

Client模式提交命令和特点

Cluster模式提交命令和特点

11 Spark术语

Spark-ClusterManager

Spark-Driver

Spark-Master

Spark-Worker

Spark-Executor

Spark-线程池

Spark-Application

Spark-job

Spark-Stage

12 Spark计算模式

SparkRDD窄依赖

SparkRDD宽依赖

SparkStage切割划分

SparkStage计算模式

Pipeline管道数据落地

Stage并行度划分

提高Stage并行度方式

Spark-task

13 Spark任务调度

任务调度角色划分

资源调度角色划分

Spark资源调度过程

Spark任务调度过程

SparkDAG有向无环图

粗粒度资源申请特点

细粒度资源申请特点

Spark推测执行机制

14 Spark任务提交案例

Spark pv,uv案例

Spark WordCount案例

Spark二次排序案例

Spark分组取topN案例

Spark分组取topN优化

Spark处理数据思路转换

MasterHA高可用配置

MasterHA搭建注意点

15 Spark 高阶应用

广播变量及注意事项

累加器及注意事项

自定义累加器

版本对比变化

Spark-WebUI详解

Spark日志查看

Pipeline计算模式验证

历史日志服务器配置

MasterHA高可用原理

16 Spark 核心之Shuffle

SparkShuffle概念

Spark-HashShuffle普通机制

Spark-HashShuffle优化机制

Spark-SortShuffle普通机制

Spark-SortShufflebypass机制

HashShuffle执行流程详解

SortShuffle执行流程详解

HashShuffle与SortShuffle对比

Shuffle文件寻址详解

Spark oom问题处理

Spark统一内存管理划分

17 SparkSQL初级

Shark原理分析

SparkSQL原理分析

SparkSQL演变过程

DataFrame与DataSet

SparkSQL数据源

SparkSQL底层架构

SparkSQL谓词下推

Json格式数据转DataSet

普通RDD和DataSet互操作

Parquet数据转DataSet

Spark静态内存管理划分

18 SparkSQL高级

SparkSQL序列化问题

Hive On Spark原理

Spark On Hive原理

Spark On Hive配置详解

SparkSQL DataSet存储

SparkSQL之UDF

SparkSQL之UDAF

SparkSQL之over函数

JDBC数据转DataSet

aS

KafkaTopic更改、删除

19 SparkStreaming流式处理框架

SparkStreaming介绍

SparkStreaming&Strom

SparkStreaming接受数据原理

SparkStreaming之Dstream

SparkStreaming读取Socket数据

foreachRDD算子使用

transform算子使用

updateStateByKey算子使用

window窗口操作

reduceByKeyAndWindow使用

DriverHA原理及搭建

20 Kafka分布式消息系统应用

Kafka分布式消息系统介绍

Kafka应用场景

Kafka生产消息原理

Kafka存储消息原理

Kafka Topic、partition原理

Consumer消费消息原理

Kafka集群搭建

Kafka命令使用

Kafka消息系统特点

KafkaLeader均衡机制

Kafka版本更改对比

21 SparkStreaming+kafka整合

Receiver模式整合原理

Receiver模式问题及优化

Direct模式整合原理

Direct模式Api使用

WAL机制配置及使用

Receiver模式并行度设置

Direct模式并行度设置

无主架构模型

21 kafka整合

Direct模式offset管理

新版本Direct模式使用

新版本Direct模式对比

新版本Direct模式offset管理

SparkStreaming配置参数详解

SparkStreaming反压机制

Rdb 与aof类型

主从架构模型

22 Redis语法

Redis介绍

String1类型

String2类型

List1类型

List2类型

Set类型

Sorted set类型

Redis集群搭建

23 Storm流式计算

Storm应用场景

Storm架构模型

Storm框架介绍

Storm单词统计练习

Storm分组策略

Storm分组实践

Storm伪分布式安装

24 Storm计算详解

Storm异步与同步实时分析框架和实例

Storm全分布式

drpc实现

kafka 与storm

flume+kafka+storm

Storm容错

Storm事务

Storm电信项目

第五阶段
机器学习和算法

第五阶段
机器学习和算法

第五阶段
机器学习和算法

01 Python介绍及安装

Python介绍

Python历史

Python优缺点

Python应用场景

Python下载

Python安装

Python ide安装

Python helloworld

Python交互式窗口

Python注释及乱码

02 Python基础知识

Python变量

Python类型

Python标识符

Python关键字

Python输入

Python输出

Python运算符

Python分支结构

Python input陷阱

Python 循环结构

03 Python集合类型

字符串

列表

元组

字典

可变类型

不可变类型

集合的迭代

集合排序

集合嵌套

04 Python函数

Python函数介绍

函数的定义与调用

Python参数

Python返回值

Python递归函数

Python匿名函数

高阶函数

高阶函数和递归计算

斐波拉契数列

05 Python文件操作

Python文件的打开与关闭

Python的读写

Python的定位读写

Python文件操作

Os模块

文件批量处理

Mp3音乐播放

文件批量处理

06 Python类与对象

面向对象编程介绍

类与对象

定义类与创建对象

Self

保护对象的属性

继承

多继承

多态

类属性与实例属性

类方法与静态方法

07设计模式与异常

单例模式

工厂模式

异常简介

异常捕获

异常的传递

自定义异常

异常处理中排除异常

异常的分类

08 Python模块及数据库操作

模块的使用与安装

模块制作

Python中的模块

模块的发布

模块安装及使用

Python连接mysql

Python查询数据库

数据API

API的封装

09 Numpy库

numpy介绍

numpy特点

numpy安装

numpy基础

矩阵的创建

矩阵的属性

矩阵的基本运算

矩阵的常用函数

矩阵的切片

矩阵的索引

10 机器学习基础

PySpark基础配置

Python开发工具配置

PySpark运行开发原理

Python模块安装方式

机器学习数学基础

线性回归原理

梯度下降迭代确定模型

多元线性回归原理

参数优化

模型过拟合问题

11 机器学习算法一

贝叶斯分类算法

贝叶斯概率分类原理

贝叶斯公式推广

拉普拉斯估计原理

模型保存

KNN算法原理

KNN问题

机器学习中的归一化

距离度量方式

Kmeans聚类算法原理

12 机器学习算法二

Kmens++算法

K值的选择策略

TF-IDF原理

逻辑回顾分类算法原理

傅里叶变化

最大似然估计思想

逻辑回归构造损失函数

逻辑回顾损失函数公式推导

逻辑回归归一化

混淆矩阵

13 机器学习算法三

推荐系统原理

推荐系统架构

lambda架构处理数据

实时和离线场景应用

ML下python在Hive中应用

dubbo使用zookeeper协调应用

dubbo服务提供端原理

dubbo服务消费端原理

dubbo在推荐系统中应用

实时在线推荐app

14 机器学习案例

垃圾邮件分类案例

数据点基于贝叶斯分类案例

手动实现KNN算法

数据点基于KNN算法分类

数据点Kmeans聚类案例

14 机器学习案例

基于Python的KMeans可视化

微博聚类案例

音乐分类案例

道路拥堵预测案例

推荐系统

第六阶段
平台架构师课程体系

第六阶段
平台架构师课程体系

第六阶段
平台架构师课程体系

01 Hive优化

hive优化思想

hive查询计划

hive本地模式

hive并行计算

hive严格模式

hive排序

hive map join

hive大表join

02 Hive优化

hive合并小文件

hive map与reduce个数

hive-jvm重用

Hive数据倾斜

Hive脚本编程

Hive脚本执行架构

Hive的任务的监控

hive map-side聚合

03 hbase优化

预分区

Rowkey设计

列族个数

Compact合并优化

Split优化

多htable并发写

Htable参数设置

批量写

04 hbase优化

多htable并发读

批量读

多线程并发读

缓存查询结果

Blockcache

Htablepool

Hbase索引

多线程并发写

05 Spark核心源码分析

Spark-pipeline iter 源码分析

map源码分析

flatMap源码分析

reduceByKey源码分析

combineByKey源码分析

aggregateByKey源码分析

sortByKey源码分析

repartition源码分析

06 Spark核心源码分析

Spark-Master启动源码分析

Spark-Worker启动源码分析

Spark-Driver启动源码分析

Spark-Application注册源码分析

Spark-Executor启动源码分析

Spark-资源调度源码分析

Spark-任务调度源码分析

Spark-Shuffle-Write源码分析

Spark-Shuffle-Read源码分析

Spark数据倾斜不同解决方案

07 Spark优化

Spark分配更多的资源

Spark并行度调优

Spark 代码调优

Spark 算子选择使用

Spark 自定义分区器

Spark数据结构优化

Spark数据本地化调优

Spark内存调优

Spark对外内存调优

SparkShuffle调优

08 机器学习优化

有无截距

线性不可分问题

调整分类域值

鲁棒性调优

归一化数据

均值归一化

逻辑回归训练方法选择

机器学习中python脚本优化

09 Kylin介绍及架构

kylin的背景介绍

kylin的应用场景

kylin的发展历史

kylin的工作原理

kylin的体系架构

kylin的核心,cube构建

kylin的sql查询原理

kylin的特性和生态圈

kylin事实表

kylin维度表

10 kylin的安装与部署

kylin的下载

kylin的安装准备

kylin的部署方式

kylin安装部署

KyLin和Hive

KyLin和hbase

KyLin和Zookeeper

OLAP分类

星型模型

雪花模型

11 kylin的使用及访问方式

simple cube描述

cube构建

kylin的视图

kylin的元数据存储

kylin JDBC访问方式

kylin rest方式

12 Flink流式处理框架一

Flink架构原理

Flink与Storm的区别

Flink与SparkStreaming的区别

Flink编程模型抽象层次

Flink无界数据流

Flink有界数据流

Flink程序和数据流

13 Flink流式处理框架二

窗口和时间

有状态算子操作

容错检查点原理

Flink任务和算子链

Flink-TaskManager

Flink-JobManager

14 Flink流式处理框架三

Flink-DataStream Api操作

Flink与Kafka整合

基于本地模型部署Flink

基于Yarn模式部署Flink

TableApi 及SQL查询使用

网页排名案例实现

15 Flink流式处理框架四

数据类型和序列化

Flink高可用

Flink状态和容错

Flink保存点

Flink下载安装使用

任务槽和资源

尚学堂大数据变态管理模式

完备的教学体系,为学员提供个性化辅导方案+数字化教学资源

管理体系

从心出发,助你学习、求职、晋升一路顺畅!

学习氛围浓厚
每日晚自习
360度生活照顾
定期末位辅导
就业指导服务
教学反馈系统
教学保障系统
学习测试系统
学习任务手册
在线作业系统
综合能力评定
我要高薪 >>

领取机器学习数据(100课时) 平台架构师(140课时)
大数据174.35G视频

  • 北京校区
  • 山西校区
  • 郑州校区
  • 武汉校区
  • 四川校区
  • 长沙校区
  • 深圳校区
  • 上海校区
  • 广州校区
  • 保定招生办

北京海淀区校区(总部):北京市海淀区西三旗街道建材城西路中腾建华商务大厦东侧二层尚学堂
北京京南校区:北京亦庄经济开发区科创十四街6号院1号楼 赛蒂国际工业园
咨询电话:400-009-1906 / 010-56233821
面授课程: JavaEE培训大数据就业班培训大数据云计算周末班培训零基础大数据连读班培训大数据云计算高手班培训人工智能周末班培训人工智能+Python全栈培训H5+PHP全栈工程师培训

山西学区地址:山西省晋中市榆次区大学城大学生活广场万科商业A1座702

郑州学区地址:河南电子商务产业园6号楼4层407
咨询电话:0371-55177956

武汉学区地址:湖北省武汉市江夏区江夏大道26号 宏信悦谷创业园4楼
咨询电话:027-87989193

四川学区地址:成都市高新区锦晖西一街99号布鲁明顿大厦2栋1003室
咨询电话:028-65176856 / 13880900114

网址:http://www.cssxt.com/
咨询电话:0731-83072091

深圳校区地址:深圳市宝安区航城街道航城大道航城创新创业园A4栋210(固戍地铁站C出口)
咨询电话:0755-23061965 / 18898413781

上海尚学堂松江校区地址:上海市松江区荣乐东路2369弄45号绿地伯顿大厦2层
咨询电话:021-67690939

广州校区地址:广州市天河区元岗横路31号慧通产业广场B区B1栋6楼尚学堂(地铁3号线或6号线到“天河客运站”D出口,右拐直走约800米)
咨询电话:020-2989 6995

保定招生办公室

地址:河北省保定市竞秀区朝阳南大街777号鸿悦国际1101室

电话:15132423123

Copyright 2006-2019 北京尚学堂科技有限公司  京ICP备13018289号-19  京公网安备11010802015183  
媒体联系:18610174079 闫老师  

Java基础班,免费试学三周