使用 CLOUDERA API for Spark 将应用程序部署到 MATLAB Spark

此示例向您说明如何针对启用 MATLAB^® Spark™ MATLAB 集群部署使用 CLOUDERA^® API for Spark 开发的 Hadoop^® 应用程序。

应用程序 flightsByCarrierDemo.m 根据航空公司数据计算航空公司类型的数量。应用程序的输入包括：

注意

此示例的完整代码位于文件 flightsByCarrierDemo.m 中，如下所示。

在桌面上的默认位置安装 MATLAB Runtime。此示例使用 /usr/local/MATLAB/MATLAB_Runtime/R2025a 作为 MATLAB Runtime 的默认位置。
如果您没有 MATLAB Runtime，请参阅下载并安装 MATLAB Runtime了解安装说明。
在每个工作进程节点上安装 MATLAB Runtime。
将 airlinesmall.csv 从 MATLAB 安装区域的文件夹 toolbox/matlab/demos 复制到 Hadoop 分布式文件系统 (HDFS™) 文件夹 /datasets/airlinemod。

在 MATLAB 命令提示符下，使用 mcc 命令为 MATLAB 应用程序 jar 生成一个 flightsByCarrierDemo.m 文件和一个 shell 脚本。
```
>> mcc -C -W 'Spark:flightsByCarrierDemoApp' flightsByCarrierDemo.m
```
此操作将创建一个名为 jar 的 flightsByCarrierDemoApp.jar 文件和一个名为 run_flightsByCarrierDemoApp.sh shell 脚本。
在 yarn-client 模式或 yarn-cluster 模式下执行 shell 脚本。在 yarn-client 模式下，驱动在桌面上运行。在 yarn-cluster 模式下，驱动在集群中的 Application Master 进程中运行。两种情况下的计算结果都通过调用 RDD 上的 saveAsTextFile 方法保存到 HDFS 上的文本文件中。
yarn-client 模式
从 Linux^® 终端运行以下命令：
```
$ ./run_flightsByCarrierDemoApp.sh \ 
   /usr/local/MATLAB/MATLAB_Runtime/R2025a \
   yarn-client \
   hdfs://hadoop01glnxa64:54310/datasets/airlinemod/airlinesmall.csv
```
要检查结果，请从 Linux 终端输入以下内容：
```
$ hadoop fs -cat flightsByCarrierResults/*
```
yarn-cluster 模式
从 Linux 终端运行以下命令：
```
$ ./run_flightsByCarrierDemoApp.sh \
/usr/local/MATLAB/MATLAB_Runtime/R2025a \
--deploy-mode cluster --master yarn yarn-cluster \
 hdfs://hadoop01glnxa64:54310/datasets/airlinemod/airlinesmall.csv
```