博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
深入理解Spark(一):Spark核心概念RDD
阅读量:6828 次
发布时间:2019-06-26

本文共 598 字,大约阅读时间需要 1 分钟。

RDD全称叫做弹性分布式数据集(Resilient Distributed Datasets),它是一种分布式的内存抽象,表示一个只读的记录分区的集合,它只能通过其他RDD转换而创建,为此,RDD支持丰富的转换操作(如map, join, filter, groupBy等),通过这种转换操作,新的RDD则包含了如何从其他RDDs衍生所必需的信息,所以说RDDs之间是有依赖关系的。基于RDDs之间的依赖,RDDs会形成一个有向无环图DAG,该DAG描述了整个流式计算的流程,实际执行的时候,RDD是通过血缘关系(Lineage)一气呵成的,即使出现数据分区丢失,也可以通过血缘关系重建分区,总结起来,基于RDD的流式计算任务可描述为:从稳定的物理存储(如分布式文件系统)中加载记录,记录被传入由一组确定性操作构成的DAG,然后写回稳定存储。另外RDD还可以将数据集缓存到内存中,使得在多个操作之间可以重用数据集,基于这个特点可以很方便地构建迭代型应用(图计算、机器学习等)或者交互式数据分析应用。可以说Spark最初也就是实现RDD的一个分布式系统,后面通过不断发展壮大成为现在较为完善的大数据生态系统,简单来讲,Spark-RDD的关系类似于Hadoop-MapReduce关系...

转载于:https://www.cnblogs.com/tuxiaogang/p/5600031.html

你可能感兴趣的文章
centos7 启动httpd的时候为什么显示是这样的
查看>>
PHP | 别家网站都有的登录功能,你的网站也可以有!
查看>>
Python实现正则表达式匹配任意的邮箱
查看>>
SpringBoot配置属性之其他
查看>>
Spring+SpringMVC+MyBatis整合进阶篇(四)RESTful实战(前端代码修改)
查看>>
tf.nn.conv2d实现卷积的过程
查看>>
LED全彩显示屏色度空间
查看>>
tomcat查看并修改jvm大小
查看>>
P1564 膜拜
查看>>
No application encryption key has been specified.
查看>>
Nginx的基本配置案例
查看>>
一线架构师带你玩性能优化
查看>>
13. 关于IDEA工具在springboot整合mybatis中出现的Invalid bound statement (not found)问题
查看>>
mysql监测工具
查看>>
lxml xpath 爬取并正常显示中文内容
查看>>
boost bind使用指南
查看>>
Centos防火墙设置与端口开放的方法
查看>>
工作总结 razor 接收datatable
查看>>
[leetcode]Unique Paths II
查看>>
C#调用dll时的类型转换总结
查看>>