Universidad de Jaén

Menú local

Guía docente 2018-19 - 74012008 - Computación distribuida para la gestión de datos a gran escala

TITULACIÓN: Máster en Ingeniería informática (74012008)
CENTRO: ESCUELA POLITÉCNICA SUPERIOR (JAÉN)

TITULACIÓN: Doble Máster en Ingeniería informática y Seguridad informática (77612003)
CENTRO: ESCUELA POLITÉCNICA SUPERIOR (JAÉN)

CURSO ACADÉMICO: 2018-19
GUÍA DOCENTE
1. DATOS BÁSICOS DE LA ASIGNATURA
NOMBRE: Computación distribuida para la gestión de datos a gran escala
CÓDIGO: 74012008 (*) CURSO ACADÉMICO: 2018-19
TIPO: -
Créditos ECTS: 9.0 CURSO: 1 CUATRIMESTRE: SC
WEB: http://dv.ujaen.es/docencia/goto_docencia_crs_527964.html
 
2. DATOS BÁSICOS DEL PROFESORADO
NOMBRE: BARRANCO GARCÍA, MANUEL JOSÉ
IMPARTE: Teoría - Prácticas [Profesor responsable]
DEPARTAMENTO: U118 - INFORMÁTICA
ÁREA: 570 - LENGUAJES Y SISTEMAS INFORMÁTICOS
N. DESPACHO: A3 - 147 E-MAIL: barranco@ujaen.es TLF: 953212923
TUTORÍAS: https://uvirtual.ujaen.es/pub/es/informacionacademica/tutorias/p/61555
URL WEB: http://sinbad2.ujaen.es/?q=es/users/barranco
 
NOMBRE: MOLINA AGUILAR, ANDRÉS
IMPARTE: Teoría - Prácticas
DEPARTAMENTO: U118 - INFORMÁTICA
ÁREA: 570 - LENGUAJES Y SISTEMAS INFORMÁTICOS
N. DESPACHO: A3 - 135 E-MAIL: molina@ujaen.es TLF: 953212889
TUTORÍAS: https://uvirtual.ujaen.es/pub/es/informacionacademica/tutorias/p/57974
URL WEB: -
 
NOMBRE: PÉREZ GODOY, MARÍA DOLORES
IMPARTE: Teoría - Prácticas
DEPARTAMENTO: U118 - INFORMÁTICA
ÁREA: 570 - LENGUAJES Y SISTEMAS INFORMÁTICOS
N. DESPACHO: A3 - 124 E-MAIL: lperez@ujaen.es TLF: 953212891
TUTORÍAS: https://uvirtual.ujaen.es/pub/es/informacionacademica/tutorias/p/58318
URL WEB: -
 
NOMBRE: SANTAMARÍA LÓPEZ, JOSÉ
IMPARTE: Teoría - Prácticas
DEPARTAMENTO: U118 - INFORMÁTICA
ÁREA: 035 - ARQUITECTURA Y TECNOLOGÍA DE COMPUTADORES
N. DESPACHO: A3 - 109 E-MAIL: jslopez@ujaen.es TLF: 953212878
TUTORÍAS: https://uvirtual.ujaen.es/pub/es/informacionacademica/tutorias/p/19436
URL WEB: http://wwwdi.ujaen.es/?q=es/jslopez
 
3. PRERREQUISITOS, CONTEXTO Y RECOMENDACIONES
PRERREQUISITOS:

Ninguno

CONTEXTO DENTRO DE LA TITULACIÓN:

El principal objetivo de la asignatura es introducir al alumno en la arquitectura para la computación distribuida así como en el análisis, diseño y procesamiento de datos a gran escala (BigData).

RECOMENDACIONES Y ADAPTACIONES CURRICULARES:

Conocimientos básicos en:

- Bases de datos relacionales. SQL.

  • Programación concurrente.

El alumnado que presente necesidades específicas de apoyo educativo, lo ha de notificar personalmente al Servicio de Atención y Ayudas al Estudiante para proceder a realizar, en su caso, la adaptación curricular correspondiente.

 

El alumnado que presente necesidades específicas de apoyo educativo, lo ha de notificar personalmente al Servicio de Atención y Ayudas al Estudiante para proceder a realizar, en su caso, la adaptación curricular correspondiente.
4. COMPETENCIAS Y RESULTADOS DE APRENDIZAJE
código Denominación de la competencia
CB10R Que los estudiantes posean las habilidades de aprendizaje que les permitan continuar estudiando de un modo que habrá de ser en gran medida autodirigido o autónomo.
CB7R Que los estudiantes sepan aplicar los conocimientos adquiridos y su capacidad de resolución de problemas en entornos nuevos o poco conocidos dentro de contextos más amplios (o multidisciplinares) relacionados con su área de estudio
CB9R Que los estudiantes sepan comunicar sus conclusiones y los conocimientos y razones últimas que las sustentan a públicos especializados y no especializados de un modo claro y sin ambigüedades
CET6 Capacidad para diseñar y evaluar sistemas operativos y servidores, y aplicaciones y sistemas basados en computación distribuida.
CET7 Capacidad para comprender y poder aplicar conocimientos avanzados de computación de altas prestaciones y métodos numéricos o computacionales a problemas de ingeniería.
CG1 Capacidad para proyectar, calcular y diseñar productos, procesos e instalaciones en todos los ámbitos de la ingeniería informática.
CG2 Capacidad para la dirección de obras e instalaciones de sistemas informáticos, cumpliendo la normativa vigente y asegurando la calidad del servicio.
CG3 Capacidad para dirigir, planificar y supervisar equipos multidisciplinares.
CG4 Capacidad para el modelado matemático, cálculo y simulación en centros tecnológicos y de ingeniería de empresa, particularmente en tareas de investigación, desarrollo e innovación en todos los ámbitos relacionados con la Ingeniería en Informática.
CG8 Capacidad para la aplicación de los conocimientos adquiridos y de resolver problemas en entornos nuevos o poco conocidos dentro de contextos más amplios y multidisciplinares, siendo capaces de integrar estos conocimientos.
CTI1 Capacidad para trabajar, dirigir y gestionar conflictos en un grupo multidisciplinar y/o un entorno multilingüe.
CTI2 Capacidad para la gestión de la información, manejo y aplicación de las especificaciones técnica y la legislación necesaria para la práctica de la ingeniería.
Resultados de aprendizaje
Resultado 4.1R Ser capaz de diseñar la arquitectura de un sistema de altas prestaciones y para la gestión de datos a gran escala.
Resultado 4.2R Estar capacitado para implementar soluciones de programación para la computación distribuida y de altas prestaciones.
5. CONTENIDOS

Arquitecturas: Clusters, grids y clouds. Sistemas de ficheros distribuidos. Bases de datos para bigdata. Procesamiento de bigdata en clusters masivos. Altas prestaciones en clusters.

 

 

CONTENIDOS TEÓRICOS Y PRÁCTICOS:

Módulo 1. Diseño de arquitecturas para la computación distribuida.
* Introducción a Big Data
* Diseño de servidores de altas prestaciones
- Concepto de servidor
- Tipos de servidores
- Características de servidores de altas prestaciones
* Diseño de centros de proceso de datos
- Diseño hardware del servidor
- Almacenamiento
- Diseño de la red
- Diseño del resto de infraestructuras

Prácticas: Ejercicios de administración de Rocks cluster

Módulo 2. Bases de datos para BigData.
* Concepto de Bases de Datos No-SQL
* Porqué utilizar NoSQL? Nuevos desafíos
* Relaciones ACID
* Teorema de Brewer
* Tipos de BD NoSQL * Qué BD NoSQL elegir? : MongoDB

Practicas: Ejercicios prácticos de instalación y uso de MongoDB

Módulo 3. Sistemas de ficheros distribuidos y procesamiento de datos con Spark.

* Big Data
* Sistema de ficheros distribuidos: HDFS
* Paradigma Map Reduce
* Procesamiento de datos a gran escala con Spark
- Introducción a Spark
- Programación con RDDs
- Programación con RDDs de pares clave-valor
- Profundizando en Spark

Prácticas: Ejercicios prácticos de Spark

Módulo 4. Procesamiento de datos a gran escala con Open MPI.
* Introducción a OpenMPI. Modos de comunicación
* Comunicaciones colectivas OpenMPI
* Tipos de datos derivados. Grupos, comunicadores y topologías.
* Manejo de errores. Ficheros.
* Funciones avanzadas. Comunicaciones one-side 
Prácticas: Ejercicios prácticos de OpenMPI en C++

 

6. METODOLOGÍA Y ACTIVIDADES
ACTIVIDADES HORAS PRESEN­CIALES HORAS TRABAJO AUTÓ­NOMO TOTAL HORAS CRÉDITOS ECTS COMPETENCIAS (códigos)
A1 - Clases expositivas en gran grupo
  • M1 - Clases magistrales
  • M2 - Exposición de teoría y ejemplos generales
  • M3 - Actividades introductorias
45.0 67.5 112.5 4.5
  • CB10R
  • CB7R
  • CB9R
  • CET6
  • CET7
  • CG1
  • CG2
  • CG3
  • CG4
  • CG8
  • CTI1
  • CTI2
A2R - Clases en pequeño grupo
  • M4MF - Actividades practicas
  • M5MF - Seminarios
  • M6MF - Laboratorios
  • M7MF - Aulas de informática
  • M8MF - Resolución de ejercicios
  • M9MF - Presentaciones/exposiciones
45.0 67.5 112.5 4.5
  • CB10R
  • CB7R
  • CB9R
  • CET6
  • CET7
  • CG1
  • CG2
  • CG3
  • CG4
  • CG8
  • CTI1
  • CTI2
TOTALES: 90.0 135.0 225.0 9.0  
 
INFORMACIÓN DETALLADA:

En las clases expositivas se explicará el contenido teórico necesario para el desarrollo y solución de las prácticas planteadas, así como para la gestión y control de datos a gran escala.

En las clases en grupos de prácticas se propondrán problemas individuales y en grupo que favorezcan el uso y comprensión de herramientas software para la gestión de BigData.

7. SISTEMA DE EVALUACIÓN
 
ASPECTO CRITERIOS INSTRUMENTO PESO
Asistencia y/o participación en actividades presenciales y/o virtuales Asistencia mínima a clases presenciales Control de asistencia 10.0%
Conceptos teóricos de la materia Dominio de los conocimientos teóricos de la materia Prueba escrita 30.0%
Realización de trabajos, casos o ejercicios Estructura y calidad de los trabajos presentados. Entrega de trabajos 20.0%
Prácticas de laboratorio/campo/uso de herramientas TIC Dominio de los conocimientos prácticos de la materia Entrega de prácticas 40.0%
El sistema de calificación se regirá por lo establecido en el RD 1125/2003 de 5 de septiembre por el que se establece el sistema europeo de créditos y el sistema de calificaciones en la titulaciones universitarias de carácter oficial
INFORMACIÓN DETALLADA:

El sistema de calificación se regirá por lo establecido en el RD 1125/2003 de 5 de septiembre por el que se establece el sistema europeo de créditos y el sistema de calificaciones en la titulaciones universitarias de carácter oficial.

Atendiendo a lo recogido en el art. 13 del Reglamento de Régimen Académico y de Evaluación del alumnado de la Universidad de Jaén, la evaluación de la asignatura será global.

Para superar la asignatura, la nota final será la suma de las notas ponderadas de acuerdo a los criterios incluidos en el sistema de evaluación.

La nota obtenida por el alumno durante el periodo lectivo (nota de evaluación continua correspondiente a la asistencia y participación en clase, entrega de trabajos y entrega de prácticas de laboratorio) se mantendrá para las convocatorias oficiales del mismo curso.

La nota final se obtendrá ponderando de acuerdo a los pesos asignados a cada módulo:

Módulo 1. (22%) Diseño de arquitecturas para la computación distribuida. Se espera que el alumno demuestre la suficiencia en los resultados: Ser capaz de diseñar la arquitectura de un sistema de altas prestaciones para la gestión de datos a gran escala.

Módulo 2. (22%) Bases de datos para BigData. Se espera que el alumno demuestre la suficiencia en los resultados: Ser capaz de diseñar la arquitectura de un sistema de altas prestaciones para la gestión de datos a gran escala. Ser capaz de diseñar e implantar infraestructuras y plataformas para la virtualización y la computación en la nube.

Módulo 3. (22%) Sistemas de ficheros distribuidos y procesamiento de datos con Spark. Se espera que el alumno demuestre la suficiencia en los resultados: Ser capaz de diseñar e implantar infraestructuras y plataformas para la virtualización y la computación en la nube. Saber desarrollar servicios, componentes y aplicaciones basadas en la computación en la nube.

Módulo 4. (34%) Procesamiento de datos a gran escala con Open MPI. Se espera que el alumno demuestre la suficiencia en los resultados: Estar capacitado para implementar soluciones de programación para la computación distribuida y de altas prestaciones.

8. DOCUMENTACIÓN / BIBLIOGRAFÍA
ESPECÍFICA O BÁSICA:
  • Build the best data center facility for your business. Edición: 1st printing. Autor: Alger, Douglas. Editorial: Indianapolis, Indiana : Cisco Press, 2012  (C. Biblioteca)
  • MongoDB in action [Recurso electrónico]. Edición: -. Autor: Banker, Kyle. Editorial: Shelter Island, NY : Manning, 2012  (C. Biblioteca)
  • Big data for dummies [Recurso electrónico]. Edición: -. Autor: -. Editorial: Hoboken, NJ : John Wiley & Sons, Inc., 2013  (C. Biblioteca)
  • Learning Spark [Recurso electrónico] : lightening fast data analysis. Edición: First edition. Autor: Karau, Holden. Editorial: Sebastopol, CA : O'Reilly Media, [2015]  (C. Biblioteca)
GENERAL Y COMPLEMENTARIA:
  • Unix and Linux system administration handbook. Edición: 4th ed. Autor: -. Editorial: Upper Saddle River (New Jersey) : Prentice Hall, 2011  (C. Biblioteca)
  • MongoDB and Python [Recurso electrónico]. Edición: -. Autor: O'Higgins, Niall. Editorial: Sebastopol, Calif. : O'Reilly, 2011  (C. Biblioteca)
  • The definitive guide to MongoDB [Recurso electrónico] : the noSQL database for cloud and desktop com. Edición: -. Autor: Plugge, Eelco, 1986-. Editorial: [S.l.] : Apress, c2010 (New York, N.Y. : Distributed to the book trade worldwide by Springer-Verlag New York)  (C. Biblioteca)
  • Big data : la revolución de los datos masivos. Edición: -. Autor: Mayer-Schönberger, Viktor. Editorial: Madrid : Turner, 2013  (C. Biblioteca)
  • Machine learning with Spark [Recurso electrónico] : create scalable machine learning applications to. Edición: -. Autor: Pentreath, Nick. Editorial: Birmingham, UK : Packt Publishing, 2015  (C. Biblioteca)
  • Using MPI: portable parallel programming with the message-passing interface. Edición: -. Autor: Gropp, William. Editorial: Massachusetts: The MIT Press, cop. 1999  (C. Biblioteca)
9. CRONOGRAMA

Semana 1. Módulo 1 

Semana 2. Módulo 1 

Semana 3. Módulo 1 y módulo 2 

Semana 4. Módulo 2 

Semana 5. Módulo 2 

Semana 6. Módulo 2 y módulo 3 

Semana 7. Módulo 3 

Semana 8. Módulo 3 

Semana 9. Módulo 3 y módulo 4 

Semana 10. Módulo 4 

Semana 11. Módulo 4 

Semana 12. Módulo 4 

Semana 13. Módulo 4