主要内容

本页采用了机器翻译。点击此处可查看最新英文版本。

使用 CLOUDERA API for Spark 将应用程序部署到 MATLAB Spark

此示例向您说明如何针对启用 MATLAB® Spark™ MATLAB 集群部署使用 CLOUDERA® API for Spark 开发的 Hadoop® 应用程序。

应用程序 flightsByCarrierDemo.m 根据航空公司数据计算航空公司类型的数量。应用程序的输入包括:

  • master - Spark 集群的 URL

  • inputFile - 包含输入数据的文件

注意

此示例的完整代码位于文件 flightsByCarrierDemo.m 中,如下所示。

 flightsByCarrierDemo.m

前提条件

  • 在桌面上的默认位置安装 MATLAB Runtime。此示例使用 /usr/local/MATLAB/MATLAB_Runtime/R2025a 作为 MATLAB Runtime 的默认位置。

    如果您没有 MATLAB Runtime,请参阅下载并安装 MATLAB Runtime了解安装说明。

  • 在每个工作进程节点上安装 MATLAB Runtime

  • airlinesmall.csv 从 MATLAB 安装区域的文件夹 toolbox/matlab/demos 复制到 Hadoop 分布式文件系统 (HDFS™) 文件夹 /datasets/airlinemod

将应用程序部署到 CLOUDERA Spark

  1. 在 MATLAB 命令提示符下,使用 mcc 命令为 MATLAB 应用程序 jar 生成一个 flightsByCarrierDemo.m 文件和一个 shell 脚本。

    >> mcc -C -W 'Spark:flightsByCarrierDemoApp' flightsByCarrierDemo.m

    此操作将创建一个名为 jarflightsByCarrierDemoApp.jar 文件和一个名为 run_flightsByCarrierDemoApp.sh shell 脚本。

  2. yarn-client 模式或 yarn-cluster 模式下执行 shell 脚本。在 yarn-client 模式下,驱动在桌面上运行。在 yarn-cluster 模式下,驱动在集群中的 Application Master 进程中运行。两种情况下的计算结果都通过调用 RDD 上的 saveAsTextFile 方法保存到 HDFS 上的文本文件中。

    yarn-client 模式

    从 Linux® 终端运行以下命令:

    $ ./run_flightsByCarrierDemoApp.sh \ 
       /usr/local/MATLAB/MATLAB_Runtime/R2025a \
       yarn-client \
       hdfs://hadoop01glnxa64:54310/datasets/airlinemod/airlinesmall.csv
    

    要检查结果,请从 Linux 终端输入以下内容:

    $ hadoop fs -cat flightsByCarrierResults/*

    yarn-cluster 模式

    从 Linux 终端运行以下命令:

    $ ./run_flightsByCarrierDemoApp.sh \
    /usr/local/MATLAB/MATLAB_Runtime/R2025a \
    --deploy-mode cluster --master yarn yarn-cluster \
     hdfs://hadoop01glnxa64:54310/datasets/airlinemod/airlinesmall.csv