Der "Prozessor" deiner Grafikkarte besteht im Wesentlichen aus wahnsinnig vielen kleinen Einzelprozessoren, die parallel und jeder für sich rechnen, wobei eine einzelne Recheneinheit nicht sonderlich schnell oder leistungsfähig ist. Erst wenn du Berechnungen in sehr viele unabhängige Teilrechnungen zerlegen kannst (was bei Grafikanwendungen typischerweise der Fall ist), macht der Einsatz einer Grafikkarte überhaupt Sinn.
Jedes Pixel ist im Wesentlichen das Ergebnis einer Kette von Operationen. Wenn du eine "bytekompatible" Länge hast (8, 16, 32, 64, ...), kann man die meisten Rechenoperationen mit recht einfachen Operationen wie UND und ODER erschlagen. Außerdem werden die Recheneinheiten am effizientesten ausgenutzt. Wenn wir mal annehmen, daß die Recheneinheiten (ALUs) intern mit 16 Bit arbeiten, dann kann ein 16 Pixel breites Tile bequem von einer ALU gerechnet werden. Wenn das Tile 32 Pixel breit ist, dann brauchst du zwei ALUs.
Wenn du jetzt aber z.B. ein 35 Pixel breites Tile willst, dann brauchst du drei ALUs, wobei aber eine ALU bloß zwei Pixel rechnet und damit nur zu 2/16 * 100% ausgelastet ist. Meist lebt man mit 32 Pixeln dann besser, ist ja nur geringfügig kleiner, aber dafür ist das Bild schneller/effizienter berechnet. Insbesondere für Handyanwendungen, die auf schwachbrüstiger Sparhardware laufen, ist das gut.
Das ist jedenfalls daß, was mir aufgrund meines Halbwissens über Hardware als mögliche Erklärung einfällt. Ich weiß zwar ein wenig über den Aufbau von Hardware, aber Leute die z.B. OpenGL oder ähnliches geschrieben haben wissen da ganz sicher weitaus besser Bescheid.