Universidad de Jaén

Menú local

Guía docente 2017-18 - 77612003 - Computación distribuida para la gestión de datos a gran escala

TITULACIÓN: Doble Máster en Ingeniería informática y Seguridad informática (77612003)
CENTRO: ESCUELA POLITÉCNICA SUPERIOR (JAÉN)
TITULACIÓN: Máster Univ. en Ingeniería informática (74012008)
CENTRO: ESCUELA POLITÉCNICA SUPERIOR (JAÉN)
CURSO: 2017-18
ASIGNATURA: Computación distribuida para la gestión de datos a gran escala
GUÍA DOCENTE
1. DATOS BÁSICOS DE LA ASIGNATURA
NOMBRE: Computación distribuida para la gestión de datos a gran escala
CÓDIGO: 77612003 (*) CURSO ACADÉMICO: 2017-18
TIPO: Obligatoria
Créditos ECTS: 9.0 CURSO: 1 CUATRIMESTRE: SC
WEB: http://dv.ujaen.es/docencia/goto_docencia_crs_527964.html
2. DATOS BÁSICOS DEL PROFESORADO
NOMBRE: ORTEGA ALVARADO, LIDIA Mª
IMPARTE: [Profesor responsable]
DEPARTAMENTO: U118 - INFORMÁTICA
ÁREA: 570 - LENGUAJES Y SISTEMAS INFORMÁTICOS
N. DESPACHO: A3 - 140 E-MAIL: lidia@ujaen.es TLF: 953212890
TUTORÍAS: https://uvirtual.ujaen.es/pub/es/informacionacademica/tutorias/p/58151
URL WEB: www4.ujaen.es/~lidia
ORCID: https://orcid.org/0000-0002-7320-7382
 
NOMBRE: BARRANCO GARCÍA, MANUEL JOSÉ
IMPARTE: Teoría - Prácticas
DEPARTAMENTO: U118 - INFORMÁTICA
ÁREA: 570 - LENGUAJES Y SISTEMAS INFORMÁTICOS
N. DESPACHO: A3 - 147 E-MAIL: barranco@ujaen.es TLF: 953212923
TUTORÍAS: https://uvirtual.ujaen.es/pub/es/informacionacademica/tutorias/p/61555
URL WEB: http://sinbad2.ujaen.es/?q=es/users/barranco
ORCID: https://orcid.org/0000-0002-2474-1909
 
NOMBRE: MOLINA AGUILAR, ANDRÉS
IMPARTE: Teoría - Prácticas
DEPARTAMENTO: U118 - INFORMÁTICA
ÁREA: 570 - LENGUAJES Y SISTEMAS INFORMÁTICOS
N. DESPACHO: A3 - 135 E-MAIL: molina@ujaen.es TLF: 953212889
TUTORÍAS: https://uvirtual.ujaen.es/pub/es/informacionacademica/tutorias/p/57974
URL WEB: -
ORCID: https://orcid.org/0000-0002-7823-8348
 
NOMBRE: PÉREZ GODOY, MARÍA DOLORES
IMPARTE: Teoría - Prácticas
DEPARTAMENTO: U118 - INFORMÁTICA
ÁREA: 570 - LENGUAJES Y SISTEMAS INFORMÁTICOS
N. DESPACHO: A3 - 124 E-MAIL: lperez@ujaen.es TLF: 953212891
TUTORÍAS: https://uvirtual.ujaen.es/pub/es/informacionacademica/tutorias/p/58318
URL WEB: -
ORCID: https://orcid.org/0000-0002-6670-564X
 
NOMBRE: RIVERA RIVAS, ANTONIO JESÚS
IMPARTE: Teoría - Prácticas
DEPARTAMENTO: U118 - INFORMÁTICA
ÁREA: 035 - ARQUITECTURA Y TECNOLOGÍA DE COMPUTADORES
N. DESPACHO: A3 - 125 E-MAIL: arivera@ujaen.es TLF: 953212891
TUTORÍAS: https://uvirtual.ujaen.es/pub/es/informacionacademica/tutorias/p/57945
URL WEB: -
ORCID: https://orcid.org/0000-0002-1062-3127
 
3. PRERREQUISITOS, CONTEXTO Y RECOMENDACIONES
PRERREQUISITOS:
CONTEXTO DENTRO DE LA TITULACIÓN:
RECOMENDACIONES Y ADAPTACIONES CURRICULARES:

    

Conocimientos básicos en:

- Bases de datos relacionales. SQL.

- Programación concurrente.

El alumnado que presente necesidades específicas de apoyo educativo, lo ha de notificar personalmente al Servicio de Atención y Ayudas al Estudiante para proceder a realizar, en su caso, la adaptación curricular correspondiente.
4. COMPETENCIAS Y RESULTADOS DE APRENDIZAJE
código Denominación de la competencia
 
Resultados de aprendizaje
5. CONTENIDOS

ONTENIDOS TEÓRICOS Y PRÁCTICOS:

Módulo 1. Diseño de arquitecturas para lacomputación distribuida.
* Introducción a Big Data
* Diseño de servidores de altas prestaciones
- Concepto de servidor
- Tipos de servidores
- Características de servidores de altas prestaciones
* Diseño de centros de proceso de datos
- Diseño hardware del servidor
- Almacenamiento
- Diseño de la red
- Diseño del resto de infraestructuras

Prácticas: Ejercicios de administración de Rockscluster

Módulo 2. Bases de datos para BigData.
* Concepto de Bases de Datos No-SQL
* Porqué utilizar NoSQL? Nuevos desafíos
* Relaciones ACID
* Teorema de Brewer
* Tipos de BD NoSQL * Qué BD NoSQL elegir? : MongoDBPracticas: Ejercicios prácticos de instalación y uso de MongoDB

Módulo 3. Sistemas de ficheros distribuidos y procesamiento de datos con Spark.
* ¿Qué es Big Data?.
* Explorando Spark.
* Configuración del entorno.
* Explorando MapReduce.
* Procesamiento de datos con Spark.
* Análisis de datos a gran escala con Spark.
Prácticas: Ejercicios prácticos de Spark,MapReduce y ML/MLlib

Módulo 4. Procesamiento de datos a gran escala con OpenMPI.
* Introducción a OpenMPI. Modos de comunicación
* Comunicaciones colectivas OpenMPI
* Tipos de datos derivados. Grupos, comunicadores y topologías.
* Manejo de errores. Ficheros.
* Funciones avanzadas. Comunicaciones one-side
Prácticas: Ejercicios prácticos de OpenMPI en C++

6. METODOLOGÍA Y ACTIVIDADES
 
ACTIVIDADES HORAS PRESEN­CIALES HORAS TRABAJO AUTÓ­NOMO TOTAL HORAS CRÉDITOS ECTS COMPETENCIAS (códigos)
TOTALES: 0.0 0.0 0.0 0.0  
 
INFORMACIÓN DETALLADA:

En las clases expositivas se explicará el contenido teórico necesario para el desarrollo y solución de las prácticas planteadas, así como para la gestión y control de datos a gran escala.

En las clases en grupos de prácticas se propondrán problemas individuales y en grupo que favorezcan el uso y comprensión de herramientas software para la gestión de BigData.

 

7. SISTEMA DE EVALUACIÓN
 
ASPECTO CRITERIOS INSTRUMENTO PESO
    
El sistema de calificación se regirá por lo establecido en el RD 1125/2003 de 5 de septiembre por el que se establece el sistema europeo de créditos y el sistema de calificaciones en la titulaciones universitarias de carácter oficial
INFORMACIÓN DETALLADA:

El sistema de calificación se regirá por lo establecido en el RD 1125/2003 de 5 de septiembre por el que se establece el sistema europeo de créditos y el sistema de calificaciones en la titulaciones universitarias de carácter oficial.

Para superar la asignatura, la nota final será la suma de las notas ponderadas de acuerdo a los criterios incluidos en el sistema de evaluación.

La nota obtenida por el alumno durante el periodo lectivo (nota de evaluación continua correspondiente a la asistencia y participación en clase, entrega de trabajos y entrega de prácticas de laboratorio) se mantendrá para las convocatorias oficiales del mismo curso.

La nota final se obtendrá ponderando de acuerdo a lo spesos asignados a cada módulo:

Módulo 1. (22%) Diseño de arquitecturas para la computación distribuida. Se espera que el alumno demuestrela suficiencia en los resultados: Ser capaz de diseñar la arquitectura de un sistema de altas prestaciones para la gestión de datos a gran escala.

Módulo 2. (22%) Bases de datos para BigData. Se espera que el alumno demuestre la suficiencia en los resultados: Ser capaz de diseñar la arquitectura de un sistema de altas prestaciones para la gestión de datos a gran escala. Ser capaz de diseñar e implantar infraestructuras y plataformas para la virtualización y la computación en la nube.

Módulo 3. (22%) Sistemas de ficheros distribuidos y procesamiento de datos con Spark. Se espera que el alumno demuestre la suficiencia en los resultados: Ser capaz de diseñar e implantar infraestructuras y plataformas para la virtualización y la computación en la nube. Saber desarrollar servicios, componentes y aplicaciones basadas en la computación en la nube.

Módulo 4. (34%) Procesamiento de datos a gran escala con Open MPI. Se espera que el alumno demuestre la suficiencia en los resultados: Estar capacitado para implementar soluciones de programación para la computación distribuida y de altas prestaciones.

8. DOCUMENTACIÓN / BIBLIOGRAFÍA
ESPECÍFICA O BÁSICA:
  • Build the best data center facility for your business. Edición: 1st printing. Autor: Alger, Douglas. Editorial: Indianapolis, Indiana : Cisco Press, 2012  (C. Biblioteca)
  • MongoDB in action [Recurso electrónico]. Edición: -. Autor: Banker, Kyle. Editorial: Shelter Island, NY : Manning, 2012  (C. Biblioteca)
  • Big data for dummies [Recurso electrónico]. Edición: -. Autor: -. Editorial: Hoboken, NJ : John Wiley & Sons, Inc., 2013  (C. Biblioteca)
  • Learning Spark [Recurso electrónico] : lightening fast data analysis. Edición: First edition. Autor: Karau, Holden. Editorial: Sebastopol, CA : O'Reilly Media, [2015]  (C. Biblioteca)
GENERAL Y COMPLEMENTARIA:
  • UNIX and Linux system administration handbook [Recurso electrónico]. Edición: 4th ed.. Autor: -. Editorial: Upper Saddle River, N.J. : Prentice Hall, c2011.  (C. Biblioteca)
  • MongoDB and Python [Recurso electrónico] . Edición: -. Autor: O'Higgins, Niall. Editorial: Sebastopol, Calif. : O'Reilly, 2011  (C. Biblioteca)
  • The Definitive Guide to MongoDB [Recurso electrónico] : The NoSQL Database for Cloud and Desktop Com. Edición: -. Autor: Plugge, Eelco. Editorial: Berkeley, CA : Eelco Plugge, Tim Hawkins, Peter Membrey, 2010.  (C. Biblioteca)
  • Big data : la revolución de los datos masivos. Edición: -. Autor: Mayer-Schönberger, Viktor. Editorial: Madrid : Turner, 2013  (C. Biblioteca)
  • Machine learning with Spark [Recurso electrónico] : create scalable machine learning applications to. Edición: -. Autor: Pentreath, Nick. Editorial: Birmingham, UK : Packt Publishing, 2015  (C. Biblioteca)
  • Using MPI: portable parallel programming with the message-passing interface. Edición: -. Autor: Gropp, William. Editorial: Massachusetts: The MIT Press, cop. 1999  (C. Biblioteca)
9. CRONOGRAMA

Semana 1. Módulo 1

Semana 2. Módulo 1

Semana 3. Módulo 1

Semana 4. Módulo 1 y Módulo 2

Semana 5. Módulo 2

Semana 6. Módulo 2

Semana 7. Módulo 3

Semana 8. Módulo 3

Semana 9. Módulo 3

Semana 10. Módulo 4

Semana 11. Módulo 4

Semana 12. Módulo 4

Semana 13. Módulo 4