使用 CLOUDERA API for Spark 将应用程序部署到 MATLAB Spark
此示例向您说明如何针对启用 MATLAB® Spark™ MATLAB 集群部署使用 CLOUDERA® API for Spark 开发的 Hadoop® 应用程序。
应用程序 flightsByCarrierDemo.m 根据航空公司数据计算航空公司类型的数量。应用程序的输入包括:
master- Spark 集群的 URLinputFile- 包含输入数据的文件
注意
此示例的完整代码位于文件 flightsByCarrierDemo.m 中,如下所示。
前提条件
在桌面上的默认位置安装 MATLAB Runtime。此示例使用
/usr/local/MATLAB/MATLAB_Runtime/R2025a作为 MATLAB Runtime 的默认位置。如果您没有 MATLAB Runtime,请参阅下载并安装 MATLAB Runtime了解安装说明。
在每个工作进程节点上安装 MATLAB Runtime。
将
airlinesmall.csv从 MATLAB 安装区域的文件夹toolbox/matlab/demos复制到 Hadoop 分布式文件系统 (HDFS™) 文件夹/datasets/airlinemod。
将应用程序部署到 CLOUDERA Spark
在 MATLAB 命令提示符下,使用
mcc命令为 MATLAB 应用程序jar生成一个flightsByCarrierDemo.m文件和一个 shell 脚本。>> mcc -C -W 'Spark:flightsByCarrierDemoApp' flightsByCarrierDemo.m此操作将创建一个名为
jar的flightsByCarrierDemoApp.jar文件和一个名为run_flightsByCarrierDemoApp.shshell 脚本。在
yarn-client模式或yarn-cluster模式下执行 shell 脚本。在yarn-client模式下,驱动在桌面上运行。在yarn-cluster模式下,驱动在集群中的 Application Master 进程中运行。两种情况下的计算结果都通过调用 RDD 上的saveAsTextFile方法保存到 HDFS 上的文本文件中。yarn-client模式从 Linux® 终端运行以下命令:
$ ./run_flightsByCarrierDemoApp.sh \ /usr/local/MATLAB/MATLAB_Runtime/R2025a \ yarn-client \ hdfs://hadoop01glnxa64:54310/datasets/airlinemod/airlinesmall.csv
要检查结果,请从 Linux 终端输入以下内容:
$ hadoop fs -cat flightsByCarrierResults/*
yarn-cluster模式从 Linux 终端运行以下命令:
$ ./run_flightsByCarrierDemoApp.sh \ /usr/local/MATLAB/MATLAB_Runtime/R2025a \ --deploy-mode cluster --master yarn yarn-cluster \ hdfs://hadoop01glnxa64:54310/datasets/airlinemod/airlinesmall.csv
