主要内容

使用 MATLAB API for Spark 部署应用程序

使用 MATLAB® API for Spark™ 针对 Spark 创建和执行 MATLAB 应用程序

支持的平台:仅限 Linux®

使用 MATLAB API for Spark 部署应用程序包括两个部分:

  • 使用 MATLAB API for Spark 创建应用程序并将其打包为 MATLAB 桌面环境中的独立应用程序。

  • 从 Linux shell 针对启用 Spark 的集群执行独立应用程序。

使用 MATLAB API for Spark 创建应用程序时,您将能够在 MATLAB 代码中使用 Spark 函数,例如 flatMapmapPartitionsaggregate 等。该 API 会将 Spark 编程模型公开给 MATLAB,从而允许 MATLAB 实现众多 Spark 函数。其中许多 MATLAB 实现接受函数句柄或匿名函数作为输入来执行各种类型的分析。

该 API 可让您在单台计算机上以非分布式模式在 MATLAB 桌面环境中以交互方式运行应用程序。同一台计算机上的第二个 MATLAB 会话充当工作单元。该功能有助于在将应用程序部署到启用 Spark 的集群之前对其进行调试。必须使用 MATLAB API for Spark 配置 MATLAB 环境以进行交互式调试。有关详细信息,请参阅配置交互式调试的环境

使用 MATLAB API for Spark 的一般工作流如下:

  1. 指定 Spark 属性。

  2. 创建 SparkConf 对象。

  3. 创建 SparkContext 对象。

  4. 从数据创建 RDD 对象。

  5. 对 RDD 对象执行操作。

您可以使用 mcc 命令或独立应用程序编译器将通过此 API 创建的应用程序打包为独立应用程序。然后,您可以从 Linux shell 在启用 Spark 的集群上运行该应用程序。

注意

如果使用 MATLAB API for Spark 开发的 MATLAB 应用程序包含 tall 数组,则无法部署。

有关完整示例,请参阅使用 MATLAB API for Spark 将应用程序部署到 Spark。您可以按照相同的说明将使用 MATLAB API for Spark 创建的应用程序部署到 CLOUDERA® CDH。

matlab.compiler.mlspark.SparkConf使用 Spark 参数作为键-值对组来配置应用程序的接口类
matlab.compiler.mlspark.SparkContext用于初始化与启用 Spark 的集群的连接的接口类
matlab.compiler.mlspark.RDD表示 Spark 弹性分布式数据集 (RDD) 的接口类

主题