こんにちは、いろいろと要因が考えれます。確かにランダムパッチで切り出しているなら、その影響も大いにありそうです。具体的には、パッチの大きさが小さすぎると近傍の情報をうまく拾えず、うまく認識できていないのかもしれません。同時に、パッチが小さいほうが、多くのバリエーションをもつ切り出しができて、精度向上につながるかもしれません。いろいろと切り出す大きさを変えてみても良いと思います。また、1つの画像からいくつパッチを切り出すかも、影響するかもしれません。精度が不十分であれば、訓練データからより多くのパッチを切り出すのも試す価値がありそうです。
ただ、そのほかにパラメータ調整やネットワーク構造など、多くの要因が結果に影響を与えます。その場合はセマンティックセグメンテーションではなく、一般的な畳み込みニューラルネットワークの話になるので、そこに関しては、いろいろと調べながら試行錯誤していく必要があります。ほかのCNN関連のMATLABのドキュメントを試しながら進めると効率よく学習できそうと思いました。