Spark 2.4 发布，大规模数据处理统一分析引擎-Linuxeden开源社区

Spark 2.4 发布了，Apache Spark 是用于大规模数据处理的统一分析引擎，它是一种与 Hadoop 相似的开源集群计算环境，Spark 启用了内存分布数据集，除了能够提供交互式查询外，还可以优化迭代工作负载。尽管创建 Spark 是为了支持分布式数据集上的迭代作业，但是实际上它是对 Hadoop 的补充，可以在 Hadoo 文件系统中并行运行。

此版本继续关注可用性、稳定性和性能优化，同时解决了大约 1100 个 tickets。主要更新如下：

增加了屏障执行模式，以更好地与深度学习框架集成
引入 30 多个内置和更高阶函数，更轻松地处理复杂数据类型
改进 K8s 集成
实验性 Scala 2.12 支持

此外还有内置 Avro 数据源、图像数据源，灵活的流式接收器，在传输过程中消除 2GB 块大小限制，Pandas UDF 改进等。

详情查看发布公告。

下载地址：https://spark.apache.org/downloads.html

转自 https://www.oschina.net/news/101676/spark-2-4-released

相关推荐