spark中的RDD是什么

这篇文章主要讲解了“spark中的RDD是什么”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“spark中的RDD是什么”吧！

10余年的大峪网站建设经验，针对设计、前端、开发、售后、文案、推广等六对一服务，响应快，48小时及时工作处理。营销型网站建设的优势是能够根据用户设备显示端的尺寸不同，自动调整大峪建站的显示方式，使网站能够适用不同显示终端，在浏览器中调整网站的宽度，无论在任何一种浏览器上浏览网站，都能展现优雅布局与设计，从而大程度地提升浏览体验。成都创新互联从事“大峪网站设计”,“大峪网站推广”以来，每个客户项目都认真落实执行。

RDD是什么
Spark是围绕弹性分布式数据集（RDD）的概念展开的，RDD是一种容错的可分布式操作的数据集合。有两中方式可以创建RDD：一种是将驱动程序中的已有集合平行化；另外一种是引用外部存储系统的数据集，例如共享文件系统，HDFS, HBase, 或者其他类似Hadoop的数据源。
RDD的特点之一是分布式存储，它的好处就是数据存储在不同的节点上，当需要数据进行计算的时候可以在这些节点上并行操作。弹性表现在节点在存储RDD数据的时候，既可以存储在内存中，也可以存储在磁盘上，也可以两者结合使用。RDD还有个特点就是延迟计算，当是transformation算子的时候，并不执行操作，直到遇到action算子的时候才开始执行计算。

感谢各位的阅读，以上就是“spark中的RDD是什么”的内容了，经过本文的学习后，相信大家对spark中的RDD是什么这一问题有了更深刻的体会，具体使用情况还需要大家实践验证。这里是创新互联，小编将为大家推送更多相关知识点的文章，欢迎关注！

分享文章：spark中的RDD是什么
转载注明：http://cdiso.cn/article/iidjsh.html

spark中的RDD是什么

其他资讯