www.3112.net > spArk和mAprEDuCE性能

spArk和mAprEDuCE性能

mapreduce中的每个task分别在自己的进程中运行,当该task运行完的时候,该进程也就结束了.和mapreduce不一样的是,spark中多个task可以运行在一个进程里面,而且这个进程的生命周期和application一样,即使没有job在运行. 这个模型有什么好处呢?可以加快spark的运行速度!tasks可以快速地启动,并且处理内存中的数据.但是这个模型有的缺点就是粗粒度的资源管理,每个application拥有固定数量的executor和固定数量的内存.

a.由于mapreduce的shuffle过程需写磁盘,比较影响性能;而spark利用rdd技术,计算在内存中进行.b.mapreduce计算框架(api)比较局限,而spark则是具备灵活性的并行计算框架.c.再说说sparkapi方面-scala:scalablelanguage,据说是进行并行计算的最好的语言.与java相比,极大的减少代码量.

mapreduce多与磁盘交互,计算的中间结果会在磁盘上读取,特别是shuffle时候,而spark会在内存中计算,如果内存不足才会放入磁盘缓存,所以,总的来说,spark比mapreduce快

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点. 但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法. 优势应该在于分布式架构比较相似能快速上手吧. 如果我的回答没能帮助您,请继续追问.

Impala比Spark性能还要好,但你看它现在这个鸟样.认真来讲,Hadoop现在分三块HDFS/MR/YARN,Spark比Hadoop性能好,只是Spark作为一个计算引擎,比MR的性能要好.但它的存储和调度框架还是依赖于HDFS/YARN,Spark也有自己的

spark core就是一个通用的批处理计算引擎,用来开发离线的批处理作业,它与hadoop的mapreduce的区别就是,spark core基于内存计算,在速度方面有优势,尤其是机器学习的迭代过程.spark sql就是spark生态系统中一个开源的数据仓库组件,可以认为是hive在spark的实现,用来存储历史数据,做olap、日志分析、数据挖掘、机器学习等等

我觉得没什么可比性 最终 也是要 hadoop与spark 结合着使用 总的来说各有各的优势

一是 Spark 将代替 Hadoop MapReduce,成为未来大数据处理发展的方向 ;二是 Spark 将会和 Hadoop 结合,形成更大的生态圈.其实 Spark 和 Hadoop MapReduce 的重点应用场合有所不同.相对于 Hadoop MapReduce 来说,Spark 有点“青出于蓝”的感觉,Spark 是在Hadoop MapReduce 模型上发展起来的,在它的身上我们能明显看到 MapReduce的影子,所有的 Spark 并非从头创新,而是站在了巨人“MapReduce”的肩膀上.

hadoop:是分布式存储系统,同时提供分布式计算环境,存储称为hdfs,计算称为mapreduce 简称MR.spark:是一个分布式计算框架,类似于hadoop的运算环境,但是比mapreduce提供了更多支持,与其他系统的对接,一些高级算法等,可

MapReduce从出现以来,已经成为Apache Hadoop计算范式的扛鼎之作.它对于符合其设计的各项工作堪称完美:大规模日志处理,ETL批处理操作等. 随着Hadoop使用范围的不断扩大,人们已经清楚知道MapReduce不是所有计算的最佳框

友情链接:msww.net | qmbl.net | prpk.net | pdqn.net | wwgt.net | 网站地图

All rights reserved Powered by www.3112.net

copyright ©right 2010-2021。
www.3112.net内容来自网络,如有侵犯请联系客服。zhit325@qq.com