¿Cómo debo diseñar un circuito sumador de transporte para que pueda hacerlo lo más rápido y compacto posible?

Sí, ocuparán mucho espacio, ya que son complejos. Y lo más probable es que la implementación de Ripple carry Adder sea más rápida que su implementación de carry save adder. Esto se debe a que hay una lógica dedicada llamada cadena de transporte en FPGA que enruta la señal de una LUT a su LUT vecina.

Cuando escribe A + B en un HDL, se sintetiza el siguiente circuito:
Por ejemplo, en la familia Virtex-5, la etapa de generación de suma de un solo bit (propagación de señal horizontal a través de la LUT y el XORCY) es aproximadamente 17 veces más lenta que la etapa de propagación de un solo bit (propagación vertical a lo largo del MUXCY genérico). Entonces, básicamente, si está tratando de hacer un sumador realmente rápido en fpga con un consumo mínimo de área, no puede superar esto.

Aún así, si planea hacer un circuito sumador, puede echar un vistazo a este documento:
Sumadores FPGA: Evaluación de desempeño y diseño óptimo