La mayoría de las bibliotecas de álgebra lineal de Python son capas en código C / CUDA (que además ejecuta código BLAS) que se ejecutan bajo el capó. Hable acerca de Numpy, Scipy, Numba, Cython, theano, PyTorch, todo esto. Están bastante optimizados y funcionan a velocidades a las que se ejecutaría una biblioteca C ++. Espero que no estés escribiendo código de Álgebra Lineal en Python sin estos, sería muy lento.
No será fácil obtener un mejor rendimiento que el mencionado anteriormente mediante la optimización manual del código C ++ para un desarrollador de C ++ inexperto o con experiencia moderada. La mayoría de las personas que usan C ++ para el código de informática científica / ciencia de datos usarían bibliotecas de álgebra lineal C ++ en lugar de implementar todo. Estas bibliotecas (como eigen, xtensor, etc.) vuelven a hacer lo que efectivamente harían las bibliotecas de Python, llamar rutinas (cu) BLAS.