2:30pm Big Data Spark

拥抱“大数据时代”，做 IT“牛人”，

15年授课经验的金牌数据仓库名师亲自授业解惑，万勿错过！

Advanced Big Data Solution – Spark Development & Data Analysis

（更多资料和具体参加方法）

【为什么要学？】

1、最好的大数据处理存储分析平台，将传统数据分析、machine learning和新兴大数据结合在一起

2、工资薪水平均超过9万

3、发展空间大，职位数量多，因为会的人少，对从业人员技术要求不高

【谁适合学？】

DA（数据分析）、BA（商业分析）

以及Developer（开发编程）有特别优势！

【维多利亚培训特点？】

1、考证项目动手实战一条龙

2、软件环境平台资料完善

3、雇主职位资源丰富

4、师资力量强，多市第一数据仓库名师拥有20年实战及授课经验沈老师亲自授课

Spark的适用场景：

1）多次操作特定数据集的应用场。

2）粗粒度更新状态的应用。

Hadoop除了提供为大家所共识的HDFS分布式数据存储功能之外，还提供了叫做MapReduce的数据处理功能。所以这里我们完全可以抛开Spark，使用Hadoop自身的MapReduce来完成数据的处理。

相反，Spark也不是非要依附在Hadoop身上才能生存。但如上所述，毕竟它没有提供文件管理系统，所以，它必须和其他的分布式文件系统进行集成才能运作。这里我们可以选择Hadoop的HDFS,也可以选择其他的基于云的数据系统平台。但Spark默认来说还是被用在Hadoop上面的。

【讲座内容】Hadoop采用MapReduce分布式计算框架，将数据切片计算来处理大量的离线数据数据。并根据GFS开发了HDFS分布式文件系统，根据BigTable开发了HBase数据存储系统。Hadoop处理的数据必须是已经存放在HDFS上或者类似HBase的数据库中。常用于离线的复杂的大数据处理。Hadoop和Apache Spark两者都是大数据框架，但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储，意味着您不需要购买和维护昂贵的服务器硬件。同时，Hadoop还会索引和跟踪这些数据，让大数据处理和分析效率达到前所未有的高度。Spark，则是那么一个专门用来对那些分布式存储的大数据进行处理的工具，它并不会进行分布式数据的存储。

Spark的适用场景：

1）多次操作特定数据集的应用场。Spark是基于内存的迭代计算框架，适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多，所需读取的数据量越大，受益越大，数据量小但是计算密集度较大的场合，受益就相对较小。

2）粗粒度更新状态的应用。由于RDD的特性，Spark不适用那种异步细粒度更新状态的应用，例如Web服务的存储或者是增量的Web爬虫和索引。就是对于那种增量修改的应用模型不适合。

因此Spark的适用面是很广泛的。

【主讲人】

名师Mr. Shen 被学员们公认：

-- Data Warehouse名师Mr.Shen是一生难求的好老师！

--多伦多Data Warehouse名师Mr.Shen，北美本地13年IT工作经验。

--多年数据仓库开发经验，对目前设计和建立数据仓库的方法和常用的ETL和BI主流工具软件有非常深入的了解。

--多伦多著名BI培训专家，维多利亚“Data Warehouse 就业班”、“Data Warehouse 实战班(Informatica & Congnos)”和“DataStage证书经验班”授课名师。

--能结合工作中大量的实际例子应用和及教学，为大家演绎目前在这个领域中市场上流行软件的精髓。

周六课程

维多利亚教育中心 - 热线电话：416-665-1888
Toronto: 250 Consumers Road, Suite 901, Toronto, Ontario, Canada M2J 4V6
Mississauga: Unit 129, 1140 Burnhamthorpe Road West, Mississauga, Ontario L5C 4E6
Copyright © 2009-2017 Victoria Toronto Training Center. All rights reserved.

本页最后更新: | -- | 网站设计和虚拟主机服务 WECAN