fmincon のUseParallel オプションをtrueにするだけで、内部の勾配の計算が複数のGPUに割り振られます。ただし、高速化に繋がるかどうかは、目的関数内での計算量に依存します。
Optimization Toolbox 関数の並列計算
fminconのUseParallelは、内部的にparforが動いており、parpoolで複数のワーカーを起動すると、それぞれのワーカーは自動的に別々のGPUを使った処理を行います。
参考:Running Monte Carlo Simulations on Multiple GPUs