Ein paralleler Prozess mit Rang p berechnet die Blöcke für deren Index (I, J) gilt: I + J mod P = p. Hierdurch wird die Last gleichmäßig auf alle Prozesse verteilt und die Symmetrie kann weiterhin ausgenutzt werden. Der Vorteil des Tilings bleibt aufgrund der Blockstruktur ebenfalls erhalten. Da sämtliche Prozesse ihre Ergebnisse in das a-Array schreiben, muss der Schreibzugriff auf die einzelnen Zellen mittels Mutices abgesichert werden.