SEDAR : detección y recuperación automática de fallos transitorios en sistemas de cómputo de altas prestaciones

Detalles Bibliográficos
Autor Principal: Montezanti, Diego Miguel
Otros autores o Colaboradores: De Giusti, Armando Eduardo (Director/a), Naiouf, Ricardo Marcelo (Codirector/a), Rexachs, Dolores Isabel (Director/a), Luque, Emilio (Codirector/a)
Formato: Tesis
Lengua:español
Datos de publicación: 2020
Temas:
Acceso en línea:http://catalogo.info.unlp.edu.ar/meran/getDocument.pl?id=2143
Consultar en el Cátalogo
Notas:Tesis con dirección conjunta por convenio de colaboración entre Universidad Nacional de La Plata y la Universidad Autónoma de Barcelona.
Descripción Física:1 archivo (4.36 MB) : il. col.
Tabla de Contenidos:
  • Índice
  • Prefacio
  • 1. Fallos Transitorios
  • 1.1. Introducción
  • 1.2. Concepto. Causas de ocurrencia
  • 1.3. Terminología asociada a los fallos transitorios
  • 1.4. Métricas utilizadas
  • 1.5. Algunos casos reales
  • 1.6. Consecuencias de los fallos transitorios
  • 1.7. Posibles efectos de los fallos transitorios
  • 1.7.1. Excepción por instrucción inválida
  • 1.7.2. Error de paridad durante un ciclo de lectura
  • 1.7.3. Violación en acceso a memoria
  • 1.7.4. Cambio de un valor
  • 1.8. Fallos transitorios en sistemas de HPC
  • 1.8.1. Características de aplicaciones paralelas científicas de paso de mensajes
  • 1.8.2. Consecuencias de fallos transitorios en sistemas paralelos
  • 1.9. Objetivos
  • 1.10. Contribuciones y limitaciones
  • 2. Trabajo relacionado
  • 2.1. Objetivos de la detección
  • 2.2. Propuestas basadas en redundancia
  • 2.2.1. Redundancia a nivel de instrucciones
  • 2.2.2. Redundancia a nivel de threads
  • 2.3. Propuestas basadas puramente en software
  • 2.4. Propuestas híbridas
  • 2.5. Tolerancia a fallos transitorios en cómputo paralelo
  • 2.5.1. Aplicaciones MPI resilientes: ULFM
  • 2.6. Checkpoint-Restart
  • 2.7. Soluciones específicas
  • 2.8. Replicación de procesos en HPC
  • 2.8.1. Replicación de procesos para aplicaciones de HPC con paso de mensajes
  • 2.9. Propuestas basadas en la combinación de Replicación y C/R
  • 2.10. Diferencias de SEDAR con las propuestas existentes
  • 3. Detección de fallos transitorios en sistemas de HPC
  • 3.1. Modelo de fallo
  • 3.2. Metodología SMCV para detección de fallos transitorios
  • 3.2.1. Fundamentación
  • 3.2.2. Validación de contenidos de mensajes antes de enviar
  • 3.2.3. Comparación de resultados finales
  • 3.2.4. Aprovechamiento de recursos redundantes del sistema
  • 3.3. Descripción de la operación
  • 3.4. Comportamiento frente a fallos
  • 3.5. Sobrecarga de operación
  • 3.6. Esfera de Replicación (SoR)
  • 3.7. Vulnerabilidades
  • 3.8. Fallos múltiples
  • 3.9. Memoria compartida
  • 3.10. Resumen de las características de la metodología
  • 4. Recuperación Automática
  • 4.1. Introducción .
  • 4.2. Recuperación basada en múltiples checkpoints de capa de sistema
  • 4.2.1. Comportamiento con múltiples fallos
  • 4.2.2. Ventajas y limitaciones
  • 4.3. Recuperación basada en un único checkpoint de capa de aplicación
  • 5. Implementación y Validación Funcional
  • 5.1. SEDAR como herramienta
  • 5.2. La herramienta de detección SMCV
  • 5.2.1. Funciones básicas
  • 5.2.2. Forma de utilización
  • 5.2.3. Verificación funcional de la eficacia de detección
  • 5.3. La herramienta SEDAR de recuperación automática
  • 5.3.1. Modelo para la verificación funcional
  • 5.3.2. Implementación y validación experimental
  • 6. Caracterización Temporal y Resultados Experimentales
  • 6.1. Caracterización temporal de SEDAR
  • 6.1.1. Caso base (baseline)
  • 6.1.2. Parámetros de la caracterización temporal
  • 6.1.3. Caracterización temporal de la estrategia de detección SMCV
  • 6.1.4. Caracterización temporal de la estrategia de recuperación basada en múltiples checkpoints de nivel de sistema
  • 6.1.5. Caracterización temporal de la estrategia de recuperación basada en único checkpoints seguro de capa de aplicación
  • 6.1.6. Tiempo promedio de ejecución
  • 6.2. Evaluación del comportamiento temporal
  • 6.3. Conveniencia de almacenar múltiples checkpoints para la recuperación
  • 6.4. Mediciones de overhead
  • 6.4.1. Diseño de la experimentación
  • 6.4.2. Resultados experimentales
  • 7. Conclusiones y trabajos futuros
  • 7.1. Conclusiones
  • 7.2. Trabajos futuros
  • Bibliografía