大数据

Spark 性能调优

collect 大数据集可以分区获取。collect类操作时,各分区的数据会复制回主节点 count() isEmpty() 看看 RDD.scala isEmpty()方法的源码就可以发现…

more

Spark RDD 和 DataSet

看DataSet完整类名:org.apache.spark.sql.DataSet, 会认为它只是处理DB数据才用到,大概类似java.sql.ResultSet, 只是它支持分布式并行计算。其实不然。…

more

Spark 使用共享变量

Spark 共享变量,如何使用…

more

大数据处理的畅想

大数据计算的需求在哪?开源社区有什么不错的方案?…

more