Análisis y diseño de técnicas de preprocesamiento de instancias escalables para problemas no balanceados en Big Data : aplicaciones en situaciones de emergencias humanitarias

Detalles Bibliográficos
Autor Principal: Basgall, María José
Otros autores o Colaboradores: Naiouf, Ricardo Marcelo (Director/a), Fernández Hilario, Alberto (Director/a)
Formato: Tesis
Lengua:español
Datos de publicación: 2022
Temas:
Acceso en línea:http://catalogo.info.unlp.edu.ar/meran/getDocument.pl?id=2520
Consultar en el Cátalogo
Descripción Física:1 archivo (4,3 MB) : il. col.
Tabla de Contenidos:
  • I Introducción y base teórica
  • 1 Introducción
  • 1.1 Objetivos
  • 1.2 Metodología
  • 1.3 Organización de la tesis
  • 2 Características de los datos
  • 2.1 Complejidades intrínsecas de los datos
  • 2.2 Análisis exploratorio de datos
  • 2.3 Comentarios del capítulo
  • 3 Aprendiendo de los datos
  • 3.1 Aprendizaje Automático
  • 3.2 Clasificación de los datos
  • 3.2.1 Modelos de clasificación
  • 3.3 Métricas de evaluación de la calidad predictiva
  • 3.3.1 Métodos de validación
  • 3.4 Comentarios del capítulo
  • 4 Preprocesamiento de los datos
  • 4.1 Desequilibrio de clases
  • 4.1.1 Enfoques a nivel de algoritmos
  • 4.1.2 Métodos sensibles a los costes
  • 4.1.3 Enfoques a nivel de datos
  • 4.2 Reducción de datos
  • 4.2.1 Reducción de instancias (reducción horizontal)
  • 4.2.2 Reducción de características (reducción vertical)
  • 4.3 Zonas ambiguas de un problema
  • 4.4 Comentarios del capitulo
  • 5 Big Data
  • 5.1 Introducción a Big Data
  • 5.2 El modelo MapReduce
  • 5.3 El ecosistema Hadoop
  • 5.3.1 Almacenamiento: Hadoop HDFS
  • 5.3.2 Gestión de recursos y monitorización de trabajos: Hadoop Yarn
  • 5.3.3 Motores de procesamiento: Hadoop MapReduce y Apache Spark
  • 5.4 Profundizando en Apache Spark
  • 5.5 Comentarios del capítulo
  • II Aportes
  • 6 Big Data no balanceado
  • 6.1 Clasificación no balanceada de Big Data
  • 6.2 Synthetic Minority Oversampling TEchnique (SMOTE) escalable para la clasificación no balanceada en Big Data
  • 6.3 Análisis del comportamiento de SMOTE-BD
  • 6.4 Un análisis de soluciones locales y globales para abordar la clasificación
  • no balanceada de Big Data
  • 6.5 Comentarios del capítulo
  • 7 Reducción escalable en escenarios Big Data
  • 7.1 Condensación de datos en Big Data
  • 7.2 FDR2-BD: Una herramienta rápida de recomendación de reducción
  • de datos para problemas de clasificación de Big Data tabular
  • 7.2.1 Descripción y flujo de trabajo
  • 7.2.2 Resumen de la implementación técnica
  • 7.3 Estudio experimental
  • 7.3.1 Entorno de trabajo
  • 7.3.2 Estudio de reducción del volumen de datos
  • 7.3.3 La influencia de la selección de características en la reducción del volumen de datos
  • 7.3.4 Detalles de la condensación de datos y evaluación del rendimiento
  • 7.3.5 Evaluación de la escalabilidad
  • 7.4 Comentarios del capítulo
  • 8 Caracterización del solapamiento en conjuntos Big Data
  • 8.1 Caracterización de un conjunto de datos. Particionamiento del espacio de características
  • 8.2 GridOverlap-BD, hacia la caracterización escalable del solapamiento en un conjunto Big Data
  • 8.2.1 Descripción y flujo de trabajo
  • 8.2.2 Comentarios de la implementación técnica
  • 8.3 Estudio experimental
  • 8.3.1 Entorno experimental
  • 8.3.2 Efectividad en la distinción de Áreas puras y ambiguas
  • 8.3.3 Grado de solapamiento
  • 8.3.4 Comparando el desempeño del método de base contra los enfoques para tratar el solapamiento
  • 8.4 Comentarios del capítulo
  • III Casos de uso
  • 9 Emergencias humanitarias
  • 9.1 Descripción de los conjuntos de datos de Emergencias Humanitarias (EH)
  • 9.2 Análisis exploratorio de los datos
  • 9.3 Empleo de técnicas de sobremuestreo y caracterización de los datos
  • 9.4 Comentarios del capítulo
  • IV Conclusiones
  • 10 Conclusiones y trabajo a futuro
  • Bibliografía
  • Apéndices