¿Cómo se endurece una CPU contra la radiación?

TLDR: los procesadores rad rad hard son funcionalmente casi iguales a sus contrapartes no rad hard, pero los componentes rad-soft en el interior se reemplazan con componentes rad-hard que pueden hacer lo mismo.

Hay toda una clase de problemas que la radiación puede causar a la electrónica llamada “Efectos de eventos únicos”, de los cuales los principales son [1]:

  • SEU (Single Event Upset) : un cambio de estado, como un bit-flop.
  • SET (transitorio de evento único) : un voltaje transitorio que se dispara a través del sistema.

Hay 3 formas principales en que los componentes Rad-Hard se diseñan de manera diferente a sus versiones Rad-Soft para hacer frente a estos problemas.

Diferencia # 1: Hardware completamente diferente (¡Muy costoso!)

Puede reemplazar componentes rad-soft como ciertas memorias con versiones rad-hard del mismo componente. Reemplazar la memoria rad-soft con flash es un ejemplo común de hacerlo.

Creo que esto es lo que está haciendo su RAD750. La hoja de datos es bastante vaga (quieren proteger su IP), pero mencionan “El RAD750 es funcionalmente idéntico al PowerPC 750” y “Todos los [elementos de almacenamiento] han sido reemplazados por circuitos endurecidos SEU [2]”. Una captura de pantalla de la parte relevante de la hoja de datos está aquí:

Otra diferencia con este tipo: los componentes rad-hard son, en mi experiencia, considerablemente más grandes que las versiones rad-soft de la misma cosa debido a los circuitos renovados en su interior.

Diferencia n. ° 2 : Redundancia en una parte Rad-Soft.

Esta es otra forma de hacer procesadores rad-hard, pero no puede simplemente tener múltiples núcleos y llamarlo bueno. Considere tener exactamente el mismo proceso ejecutándose en 3 procesos paralelos o computadoras. Si obtiene “1” del primero y “0” del segundo y tercero, ¿cómo sabe cuál es el correcto? ¿La computadora 1 recibió un error, o las dos y la 3 obtuvieron errores?

Xilinx intentó resolver este problema utilizando una tecnología llamada “TMR” o Redundancia Modular Triple [3], que es probablemente la implementación más completa de este esquema. Pero no estoy seguro de si ya lo soportan (¡es un problema difícil!).

Creo que esto es de lo que habla Quora User cuando dijo redundancia. Pero básicamente tiene el mismo software ejecutándose varias veces en una parte de rad-soft, y utilizando un esquema de votación especial, usted decide qué hacer cuando. Al diseñar un “votante” inteligente, reduce la posibilidad de que cualquier evento corrompa su diseño.

Esta es la estrategia que utilizamos al diseñar Robonaut 2, actualmente en el espacio y con suerte no morir debido a la radiación [4].


Diferencia # 3: fregado externo

Entonces, esto no se relaciona directamente con su pregunta, pero es otra forma común de tratar exactamente lo mismo para hacer un procesador radicalmente duro. También es una trampa porque involucra 2 dispositivos de hardware, pero bueno: p

A veces puede alcanzar el estado “rad-hard” utilizando un dispositivo externo para monitorear el procesador. Por ejemplo, en un FPGA, quizás pueda estar seguro de que las únicas molestias que le importan son aquellas que ocurren en la memoria de configuración. Si diseña un dispositivo rad-hard para conectarse al FPGA original para sobrescribir constantemente la memoria de configuración del módulo de procesamiento (la única parte que le preocupa por las alteraciones de la radiación), puede estar relativamente seguro de que su sistema es rad-hard. Además, de esta manera, no tiene que cambiar el software / firmware original en absoluto.

Fuentes:
[1] http://en.wikipedia.org/wiki/Sin…
[2] http://www.google.com/url?sa=t&r…
[3] http://www.xilinx.com/support/do…
[4] http://robonaut.jsc.nasa.gov/def…

Para agregar a Brian Roemmele y Quora User respuestas muy completas:

1) Nodo de proceso.
A medida que las geometrías se han reducido, hay menos coulombs de carga de retención, y las probabilidades de que una partícula alfa tenga un efecto aumentan.

Por el contrario, utilizando un nodo de proceso de geometría más grande (más antiguo), el dispositivo será más robusto.

2) Error al corregir la RAM.
Como Jack mencionó. Esto está empezando a ser común en muchos procesadores y DRAM. por ejemplo, agregar un bit 33 como línea de paridad.

Estos son importantes tanto a nivel del mar como en los satélites (aunque menos).
Por ejemplo, muchos sistemas de alta confiabilidad especifican memoria ECC (por ejemplo, estaciones base de cellluar, enrutadores centrales). Y la resistencia a la tradición se usó como un arma de marketing para las aplicaciones principales: ACTEL tiene mucho material sobre por qué sus FPGA son más robustos que los basados ​​en RAM (Xilinx, Altera) que discute los problemas.

El endurecimiento por radiación tiene tres elementos principales:

Diseño: utilizando diseños redundantes o de corrección de errores para hacer frente a los problemas inevitables causados ​​por la radiación. Esto se hace muy comúnmente en los recuerdos, pero se vuelve más difícil en los procesadores, aunque tener múltiples núcleos sería una estrategia razonable hoy en día.

Fabricación: utilizando reglas de diseño y materiales que minimizan la transmisión y el impacto de la radiación; por ejemplo, el blindaje es común, la fabricación de materiales aislantes es otra, utilizando SRAM en lugar de DRAM basado en condensadores y dispositivos de tamaño para que toleren las partículas no deseadas ocasionales sin voltear un son todas las técnicas comunes.

Pruebas: a veces la diferencia entre una parte endurecida por radiación y una que no lo es es solo que la parte endurecida por radiación se ha probado y ha pasado las pruebas. El diseño fundamental puede no ser diferente a la parte comercial. Las pruebas y la certificación ayudan a que estas piezas sean mucho más caras que sus hermanos y hermanas comerciales.