使用 MATLAB 处理大数据
查看时间表并报名课程详细信息
本课程为期一天,重点介绍调整现有算法处理文件集合或者超出内存的单个文件。学习在 MATLAB® 中表示大数据,调整现有代码提升处理效率,并且利用自己的计算资源或者云扩大分析。内容包括:
- 从数据源读取数据创建数据存储
- 使用 tall 数组表示和运算大数据
- 导入自定义或特殊的数据格式,如 Apache Parquet™,并将自定义函数应用于 tall 数组或数据存储
- 使用计算机集群和云环境
第1天 (共1天)
大数据算法原型
目标: 对无法装入内存的数据集应用现有算法。
- 使用数据存储导入数据
- 创建 tall 数组
- tall 数组运行算法
- tall 数组优化代码
- 从云环境读取数据
处理自定义数据和算法
目标: 导入自定义格式数据以及应用未对 tall 数组实现的算法
- 导入特殊数据格式,如 Apache Parquet
- 使用文件数据存储和自定义数据存储导入自定义格式数据
- 部分导入单个文件
- 对 tall 数组应用变换、归约和移动窗口操作
- 变换数据存储
使用集群和云
目标: 在计算机集群或者云环境运行大数据算法。
- 本地和远程集群
- 集群发现和连接
- 在云环境设置集群
- 文件访问注意事项