Universidad de Jaén

Menú local

Guía docente 2015-16 - 74012008 - Computación distribuida para la gestión de datos a gran escala

TITULACIÓN: Máster Univ. en Ingeniería informática
CENTRO: ESCUELA POLITÉCNICA SUPERIOR (JAÉN)
CURSO: 2015-16
ASIGNATURA: Computación distribuida para la gestión de datos a gran escala
GUÍA DOCENTE
1. DATOS BÁSICOS DE LA ASIGNATURA
NOMBRE: Computación distribuida para la gestión de datos a gran escala
CÓDIGO: 74012008 CURSO ACADÉMICO: 2015-16
TIPO: -
Créditos ECTS: 9.0 CURSO: 1 CUATRIMESTRE: SC
WEB: http://dv.ujaen.es/docencia/goto_docencia_crs_527964.html
2. DATOS BÁSICOS DEL PROFESORADO
NOMBRE: BARRANCO GARCÍA, MANUEL JOSÉ
IMPARTE: Teoría - Prácticas [Profesor responsable]
DEPARTAMENTO: U118 - INFORMÁTICA
ÁREA: 570 - LENGUAJES Y SISTEMAS INFORMÁTICOS
N. DESPACHO: A3 - 147 E-MAIL: barranco@ujaen.es TLF: 953212923
TUTORÍAS: https://uvirtual.ujaen.es/pub/es/informacionacademica/tutorias/p/61555
URL WEB: http://sinbad2.ujaen.es/?q=es/users/barranco
ORCID: https://orcid.org/0000-0002-2474-1909
 
NOMBRE: MOLINA AGUILAR, ANDRÉS
IMPARTE: Teoría - Prácticas
DEPARTAMENTO: U118 - INFORMÁTICA
ÁREA: 570 - LENGUAJES Y SISTEMAS INFORMÁTICOS
N. DESPACHO: A3 - 135 E-MAIL: molina@ujaen.es TLF: 953212889
TUTORÍAS: https://uvirtual.ujaen.es/pub/es/informacionacademica/tutorias/p/57974
URL WEB: -
ORCID: https://orcid.org/0000-0002-7823-8348
 
NOMBRE: PORCEL GALLEGO, CARLOS GUSTAVO
IMPARTE: Teoría - Prácticas
DEPARTAMENTO: U118 - INFORMÁTICA
ÁREA: 570 - LENGUAJES Y SISTEMAS INFORMÁTICOS
N. DESPACHO: A3 - 241 E-MAIL: cporcel@ujaen.es TLF: 953213017
TUTORÍAS: https://uvirtual.ujaen.es/pub/es/informacionacademica/tutorias/p/85265
URL WEB: http://www4.ujaen.es/~cporcel/
ORCID: https://orcid.org/0000-0002-0219-2937
 
NOMBRE: RIVERA RIVAS, ANTONIO JESÚS
IMPARTE: Teoría
DEPARTAMENTO: U118 - INFORMÁTICA
ÁREA: 035 - ARQUITECTURA Y TECNOLOGÍA DE COMPUTADORES
N. DESPACHO: A3 - 125 E-MAIL: arivera@ujaen.es TLF: 953212891
TUTORÍAS: https://uvirtual.ujaen.es/pub/es/informacionacademica/tutorias/p/57945
URL WEB: -
ORCID: https://orcid.org/0000-0002-1062-3127
 
NOMBRE: SANTAMARÍA LÓPEZ, JOSÉ
IMPARTE: Prácticas
DEPARTAMENTO: U118 - INFORMÁTICA
ÁREA: 035 - ARQUITECTURA Y TECNOLOGÍA DE COMPUTADORES
N. DESPACHO: A3 - 109 E-MAIL: jslopez@ujaen.es TLF: 953212878
TUTORÍAS: https://uvirtual.ujaen.es/pub/es/informacionacademica/tutorias/p/19436
URL WEB: https://www4.ujaen.es/~jslopez/
ORCID: https://orcid.org/0000-0002-2022-6838
 
3. PRERREQUISITOS, CONTEXTO Y RECOMENDACIONES
PRERREQUISITOS:

Ninguno

CONTEXTO DENTRO DE LA TITULACIÓN:

El principal objetivo de la asignatura es introducir al alumno en la arquitectura para la computación distribuida así como en el análisis, diseño y procesamiento de datos a gran escala (BigData).

RECOMENDACIONES Y ADAPTACIONES CURRICULARES:

Conocimientos básicos en:

- Bases de datos relacionales. SQL.

- Programación concurrente.

El alumnado que presente necesidades específicas de apoyo educativo, lo ha de notificar personalmente al Servicio de Atención y Ayudas al Estudiante para proceder a realizar, en su caso, la adaptación curricular correspondiente.
4. COMPETENCIAS Y RESULTADOS DE APRENDIZAJE
código Denominación de la competencia
CET1 Capacidad para modelar, diseñar, definir la arquitectura, implantar, gestionar, operar, administrar y mantener aplicaciones, redes, sistemas, servicios y contenidos informáticos.
CET2 Capacidad de comprender y saber aplicar el funcionamiento y organización de Internet, las tecnologías y protocolos de redes de nueva generación, los modelos de componentes, software intermediario y servicios.
CET5 Capacidad para analizar las necesidades de información que se plantean en un entorno y llevar a cabo en todas sus etapas el proceso de construcción de un sistema de información.
CET6 Capacidad para diseñar y evaluar sistemas operativos y servidores, y aplicaciones y sistemas basados en computación distribuida.
CET7 Capacidad para comprender y poder aplicar conocimientos avanzados de computación de altas prestaciones y métodos numéricos o computacionales a problemas de ingeniería.
CET9 Capacidad para aplicar métodos matemáticos, estadísticos y de inteligencia artificial para modelar, diseñar y desarrollar aplicaciones, servicios, sistemas inteligentes y sistemas basados en el conocimiento.
CG1 Capacidad para proyectar, calcular y diseñar productos, procesos e instalaciones en todos los ámbitos de la ingeniería informática.
CG4 Capacidad para el modelado matemático, cálculo y simulación en centros tecnológicos y de ingeniería de empresa, particularmente en tareas de investigación, desarrollo e innovación en todos los ámbitos relacionados con la Ingeniería en Informática.
CG5 Capacidad para la elaboración, planificación estratégica, dirección, coordinación y gestión técnica y económica de proyectos en todos los ámbitos de la Ingeniería en Informática siguiendo criterios de calidad y medioambientales.
CG8 Capacidad para la aplicación de los conocimientos adquiridos y de resolver problemas en entornos nuevos o poco conocidos dentro de contextos más amplios y multidisciplinares, siendo capaces de integrar estos conocimientos.
 
Resultados de aprendizaje
Resultado 20 Ser capaz de diseñar la arquitectura de un sistema de altas prestaciones y para la gestión de datos a gran escala.
Resultado 21 Estar capacitado para implementar soluciones de programación para la computación distribuida y de altas prestaciones.
Resultado 22 Ser capaz de diseñar e implantar infraestructuras y plataformas para la virtualización y la computación en la nube.
Resultado 23 Saber desarrollar servicios, componentes y aplicaciones basadas en la computación en la nube.
5. CONTENIDOS

Arquitecturas: Clusters, grids y clouds. Sistemas de ficheros distribuidos. Bases de datos para bigdata. Procesamiento de bigdata en clusters masivos. Altas prestaciones en clusters.

 

 

CONTENIDOS TEÓRICOS Y PRÁCTICOS:

Módulo 1. Diseño de arquitecturas para la computación distribuida.
* Introducción a Big Data
* Diseño de servidores de altas prestaciones
- Concepto de servidor
- Tipos de servidores
- Características de servidores de altas prestaciones
* Diseño de centros de proceso de datos
- Diseño hardware del servidor
- Almacenamiento
- Diseño de la red
- Diseño del resto de infraestructuras

Prácticas: Ejercicios de administración de Rocks cluster

Módulo 2. Bases de datos para BigData.
* Concepto de Bases de Datos No-SQL
* Porqué utilizar NoSQL? Nuevos desafíos
* Relaciones ACID
* Teorema de Brewer
* Tipos de BD NoSQL * Qué BD NoSQL elegir? : MongoDB Practicas: Ejercicios prácticos de instalación y uso de MongoDB

Módulo 3. Sistemas de ficheros distribuidos y procesamiento de datos con Hadoop.
* ¿Qué es Big Data?.
* Explorando Hadoop.
* Configuración del entorno.
* Sistema de ficheros en Hadoop.
* Explorando MapReduce.
* Procesamiento de datos con Hadoop: YARN y
MapReduce.
* Análisis de datos a gran escala con Hadoop.
Prácticas: Ejercicios prácticos de Hadoop, MapReduce y Mahout

Módulo 4. Procesamiento de datos a gran escala con Open MPI.
* Introducción a OpenMPI. Modos de comunicación
* Comunicaciones colectivas OpenMPI
* Tipos de datos derivados. Grupos, comunicadores y topologías.
* Manejo de errores. Ficheros.
* Funciones avanzadas. Comunicaciones “one-sided”
Prácticas: Ejercicios prácticos de OpenMPI en C++

6. METODOLOGÍA Y ACTIVIDADES
 
ACTIVIDADES HORAS PRESEN­CIALES HORAS TRABAJO AUTÓ­NOMO TOTAL HORAS CRÉDITOS ECTS COMPETENCIAS (códigos)
A1 - Clases expositivas en gran grupo
  • M1 - Clases magistrales
45.0 67.5 112.5 4.5
  • CET1
  • CET2
  • CET5
  • CET6
  • CET7
  • CET9
  • CG1
  • CG4
  • CG5
A2 - Clases en grupos de prácticas
  • M6 - Actividades practicas
45.0 67.5 112.5 4.5
  • CET1
  • CET2
  • CET5
  • CET6
  • CET7
  • CET9
  • CG1
  • CG4
  • CG5
  • CG8
TOTALES: 90.0 135.0 225.0 9.0  
 
INFORMACIÓN DETALLADA:

En las clases expositivas se explicará el contenido teórico necesario para el desarrollo y solución de las prácticas planteadas, así como para la gestión y control de datos a gran escala.

En las clases en grupos de prácticas se propondrán problemas individuales y en grupo que favorezcan el uso y comprensión de herramientas software para la gestión de BigData.

7. SISTEMA DE EVALUACIÓN
 
ASPECTO CRITERIOS INSTRUMENTO PESO
Asistencia y/o participación en actividades presenciales y/o virtuales Asistencia mínima a clases presenciales Control de asistencia 10.0%
Conceptos teóricos de la materia Dominio de los conocimientos teóricos de la materia Prueba escrita 30.0%
Realización de trabajos, casos o ejercicios Estructura y calidad de los trabajos presentados. Entrega de trabajos 20.0%
Prácticas de laboratorio/campo/uso de herramientas TIC Dominio de los conocimientos prácticos de la materia Entrega de prácticas 40.0%
El sistema de calificación se regirá por lo establecido en el RD 1125/2003 de 5 de septiembre por el que se establece el sistema europeo de créditos y el sistema de calificaciones en la titulaciones universitarias de carácter oficial
INFORMACIÓN DETALLADA:

El sistema de calificación se regirá por lo establecido en el RD 1125/2003 de 5 de septiembre por el que se establece el sistema europeo de créditos y el sistema de calificaciones en la titulaciones universitarias de carácter oficial.

Para superar la asignatura, la nota final será la suma de las notas ponderadas de acuerdo a los criterios incluidos en el sistema de evaluación, siempre y cuando se supere la parte teórica y práctica de cada uno de los módulos de la asignatura.

En cada módulo, para superar la parte teórica habrá que obtener al menos un 50% del peso asignado a sus contenidos. Igualmente, para superar la parte práctica habrá que obtener al menos un 50% del peso asignado a sus contenidos.

La nota final se obtendrá ponderando de acuerdo a los pesos asignados a cada módulo:

Módulo 1. (22%) Diseño de arquitecturas para la computación distribuida. Se espera que el alumno demuestre la suficiencia en los resultados: Ser capaz de diseñar la arquitectura de un sistema de altas prestaciones para la gestión de datos a gran escala.

Módulo 2. (22%) Bases de datos para BigData. Se espera que el alumno demuestre la suficiencia en los resultados: Ser capaz de diseñar la arquitectura de un sistema de altas prestaciones para la gestión de datos a gran escala. Ser capaz de diseñar e implantar infraestructuras y plataformas para la virtualización y la computación en la nube.

Módulo 3. (22%) Sistemas de ficheros distribuidos y procesamiento de datos con Hadoop. Se espera que el alumno demuestre la suficiencia en los resultados: Ser capaz de diseñar e implantar infraestructuras y plataformas para la virtualización y la computación en la nube. Saber desarrollar servicios, componentes y aplicaciones basadas en la computación en la nube.

Módulo 4. (34%) Procesamiento de datos a gran escala con Open MPI. Se espera que el alumno demuestre la suficiencia en los resultados: Estar capacitado para implementar soluciones de programación para la computación distribuida y de altas prestaciones.

8. DOCUMENTACIÓN / BIBLIOGRAFÍA
ESPECÍFICA O BÁSICA:
  • Build the best data center facility for your business. Edición: 1st printing. Autor: Alger, Douglas. Editorial: Indianapolis, Indiana : Cisco Press, 2012  (C. Biblioteca)
  • MongoDB in action [Recurso electrónico]. Edición: -. Autor: Banker, Kyle. Editorial: Shelter Island, NY : Manning, 2012  (C. Biblioteca)
  • Big data for dummies [Recurso electrónico]. Edición: -. Autor: -. Editorial: Hoboken, NJ : John Wiley & Sons, Inc., 2013  (C. Biblioteca)
  • Hadoop : the definitive guide. Edición: 3rd ed.. Autor: White, Tom. Editorial: Sebastopol, CA : O'Reilly, 2012  (C. Biblioteca)
GENERAL Y COMPLEMENTARIA:
  • Unix and Linux system administration handbook. Edición: 4th ed. Autor: -. Editorial: Upper Saddle River (New Jersey) : Prentice Hall, 2011  (C. Biblioteca)
  • MongoDB and Python [Recurso electrónico]. Edición: -. Autor: O'Higgins, Niall. Editorial: Sebastopol, Calif. : O'Reilly, 2011  (C. Biblioteca)
  • The definitive guide to MongoDB [Recurso electrónico] : the noSQL database for cloud and desktop com. Edición: -. Autor: Plugge, Eelco, 1986-. Editorial: [S.l.] : Apress, c2010 (New York, N.Y. : Distributed to the book trade worldwide by Springer-Verlag New York)  (C. Biblioteca)
  • Big data : la revolución de los datos masivos. Edición: -. Autor: Mayer-Schönberger, Viktor. Editorial: Madrid : Turner, 2013  (C. Biblioteca)
  • Hadoop in practice [Recurso electrónico]. Edición: -. Autor: Holmes, Alex. Editorial: Shelter Island, NY : Manning, c2012  (C. Biblioteca)
9. CRONOGRAMA

Semana 1. Módulo 1 (6 h.) 

Semana 2. Módulo 1 (6 h.)

Semana 3. Módulo 1 (6 h.)

Semana 4. Módulo 1 (2 h.) , Módulo 2 (4 h.)

Semana 5. Módulo 2 (6 h.)

Semana 6. Módulo 2 (6 h.)

Semana 7. Módulo 2 (4 h.), Módulo 3 (2 h.)

Semana 8. Módulo 3 (6 h.)

Semana 9. Módulo 3 (6 h.)

Semana 10. Módulo 3 (6 h.)

Semana 11. Módulo 4 (6 h.)

Semana 12. Módulo 4 (6 h.)

Semana 13. Módulo 4 (6 h.)

Semana 14. Módulo 4 (6 h.)

Semana 15. Módulo 4 (6 h.)