Menú local
Guía docente 2018-19 - 74012008 - Computación distribuida para la gestión de datos a gran escala
TITULACIÓN: | Máster Univ. en Ingeniería informática (74012008) |
CENTRO: | ESCUELA POLITÉCNICA SUPERIOR (JAÉN) |
TITULACIÓN: | Doble Máster en Ingeniería informática y Seguridad informática (77612003) |
CENTRO: | ESCUELA POLITÉCNICA SUPERIOR (JAÉN) |
CURSO: | 2018-19 |
ASIGNATURA: | Computación distribuida para la gestión de datos a gran escala |
NOMBRE: Computación distribuida para la gestión de datos a gran escala | |||||
CÓDIGO: 74012008 (*) | CURSO ACADÉMICO: 2018-19 | ||||
TIPO: - | |||||
Créditos ECTS: 9.0 | CURSO: 1 | CUATRIMESTRE: SC | |||
WEB: http://dv.ujaen.es/docencia/goto_docencia_crs_527964.html |
NOMBRE: BARRANCO GARCÍA, MANUEL JOSÉ | ||
IMPARTE: Teoría - Prácticas [Profesor responsable] | ||
DEPARTAMENTO: U118 - INFORMÁTICA | ||
ÁREA: 570 - LENGUAJES Y SISTEMAS INFORMÁTICOS | ||
N. DESPACHO: A3 - 147 | E-MAIL: barranco@ujaen.es | TLF: 953212923 |
TUTORÍAS: https://uvirtual.ujaen.es/pub/es/informacionacademica/tutorias/p/61555 | ||
URL WEB: http://sinbad2.ujaen.es/?q=es/users/barranco | ||
ORCID: https://orcid.org/0000-0002-2474-1909 | ||
NOMBRE: MOLINA AGUILAR, ANDRÉS | ||
IMPARTE: Teoría - Prácticas | ||
DEPARTAMENTO: U118 - INFORMÁTICA | ||
ÁREA: 570 - LENGUAJES Y SISTEMAS INFORMÁTICOS | ||
N. DESPACHO: A3 - 135 | E-MAIL: molina@ujaen.es | TLF: 953212889 |
TUTORÍAS: https://uvirtual.ujaen.es/pub/es/informacionacademica/tutorias/p/57974 | ||
URL WEB: - | ||
ORCID: https://orcid.org/0000-0002-7823-8348 | ||
NOMBRE: PÉREZ GODOY, MARÍA DOLORES | ||
IMPARTE: Teoría - Prácticas | ||
DEPARTAMENTO: U118 - INFORMÁTICA | ||
ÁREA: 570 - LENGUAJES Y SISTEMAS INFORMÁTICOS | ||
N. DESPACHO: A3 - 124 | E-MAIL: lperez@ujaen.es | TLF: 953212891 |
TUTORÍAS: https://uvirtual.ujaen.es/pub/es/informacionacademica/tutorias/p/58318 | ||
URL WEB: - | ||
ORCID: https://orcid.org/0000-0002-6670-564X | ||
NOMBRE: SANTAMARÍA LÓPEZ, JOSÉ | ||
IMPARTE: Teoría - Prácticas | ||
DEPARTAMENTO: U118 - INFORMÁTICA | ||
ÁREA: 035 - ARQUITECTURA Y TECNOLOGÍA DE COMPUTADORES | ||
N. DESPACHO: A3 - 109 | E-MAIL: jslopez@ujaen.es | TLF: 953212878 |
TUTORÍAS: https://uvirtual.ujaen.es/pub/es/informacionacademica/tutorias/p/19436 | ||
URL WEB: http://wwwdi.ujaen.es/?q=es/jslopez | ||
ORCID: https://orcid.org/0000-0002-2022-6838 | ||
Ninguno
El principal objetivo de la asignatura es introducir al alumno en la arquitectura para la computación distribuida así como en el análisis, diseño y procesamiento de datos a gran escala (BigData).
Conocimientos básicos en:
- Bases de datos relacionales. SQL.
- Programación concurrente.
El alumnado que presente necesidades específicas de apoyo educativo, lo ha de notificar personalmente al Servicio de Atención y Ayudas al Estudiante para proceder a realizar, en su caso, la adaptación curricular correspondiente.
El alumnado que presente necesidades específicas de apoyo educativo, lo ha de notificar personalmente al Servicio de Atención y Ayudas al Estudiante para proceder a realizar, en su caso, la adaptación curricular correspondiente.
código | Denominación de la competencia |
CB10R | Que los estudiantes posean las habilidades de aprendizaje que les permitan continuar estudiando de un modo que habrá de ser en gran medida autodirigido o autónomo. |
CB7R | Que los estudiantes sepan aplicar los conocimientos adquiridos y su capacidad de resolución de problemas en entornos nuevos o poco conocidos dentro de contextos más amplios (o multidisciplinares) relacionados con su área de estudio |
CB9R | Que los estudiantes sepan comunicar sus conclusiones y los conocimientos y razones últimas que las sustentan a públicos especializados y no especializados de un modo claro y sin ambigüedades |
CET6 | Capacidad para diseñar y evaluar sistemas operativos y servidores, y aplicaciones y sistemas basados en computación distribuida. |
CET7 | Capacidad para comprender y poder aplicar conocimientos avanzados de computación de altas prestaciones y métodos numéricos o computacionales a problemas de ingeniería. |
CG1 | Capacidad para proyectar, calcular y diseñar productos, procesos e instalaciones en todos los ámbitos de la ingeniería informática. |
CG2 | Capacidad para la dirección de obras e instalaciones de sistemas informáticos, cumpliendo la normativa vigente y asegurando la calidad del servicio. |
CG3 | Capacidad para dirigir, planificar y supervisar equipos multidisciplinares. |
CG4 | Capacidad para el modelado matemático, cálculo y simulación en centros tecnológicos y de ingeniería de empresa, particularmente en tareas de investigación, desarrollo e innovación en todos los ámbitos relacionados con la Ingeniería en Informática. |
CG8 | Capacidad para la aplicación de los conocimientos adquiridos y de resolver problemas en entornos nuevos o poco conocidos dentro de contextos más amplios y multidisciplinares, siendo capaces de integrar estos conocimientos. |
CTI1 | Capacidad para trabajar, dirigir y gestionar conflictos en un grupo multidisciplinar y/o un entorno multilingüe. |
CTI2 | Capacidad para la gestión de la información, manejo y aplicación de las especificaciones técnica y la legislación necesaria para la práctica de la ingeniería. |
Resultados de aprendizaje | |
Resultado 4.1R | Ser capaz de diseñar la arquitectura de un sistema de altas prestaciones y para la gestión de datos a gran escala. |
Resultado 4.2R | Estar capacitado para implementar soluciones de programación para la computación distribuida y de altas prestaciones. |
Arquitecturas: Clusters, grids y clouds. Sistemas de ficheros distribuidos. Bases de datos para bigdata. Procesamiento de bigdata en clusters masivos. Altas prestaciones en clusters.
CONTENIDOS TEÓRICOS Y PRÁCTICOS:
Módulo 1. Diseño de arquitecturas para la
computación distribuida.
* Introducción a Big Data
* Diseño de servidores de altas prestaciones
- Concepto de servidor
- Tipos de servidores
- Características de servidores de altas prestaciones
* Diseño de centros de proceso de datos
- Diseño hardware del servidor
- Almacenamiento
- Diseño de la red
- Diseño del resto de infraestructuras
Prácticas: Ejercicios de administración de Rocks cluster
Módulo 2. Bases de datos para BigData.
* Concepto de Bases de Datos No-SQL
* Porqué utilizar NoSQL? Nuevos desafíos
* Relaciones ACID
* Teorema de Brewer
* Tipos de BD NoSQL * Qué BD NoSQL elegir? :
MongoDB
Practicas: Ejercicios prácticos de instalación y uso de MongoDB
Módulo 3. Sistemas de ficheros distribuidos y procesamiento de datos con Spark.
* Big Data
* Sistema de ficheros distribuidos: HDFS
* Paradigma Map Reduce
* Procesamiento de datos a gran escala con Spark
- Introducción a Spark
- Programación con RDDs
- Programación con RDDs de pares clave-valor
- Profundizando en Spark
Prácticas: Ejercicios prácticos de Spark
Módulo 4. Procesamiento de datos a gran escala con Open
MPI.
* Introducción a OpenMPI. Modos de comunicación
* Comunicaciones colectivas OpenMPI
* Tipos de datos derivados. Grupos, comunicadores y
topologías.
* Manejo de errores. Ficheros.
* Funciones avanzadas. Comunicaciones one-side
Prácticas: Ejercicios prácticos de OpenMPI en
C++
ACTIVIDADES | HORAS PRESENCIALES | HORAS TRABAJO AUTÓNOMO | TOTAL HORAS | CRÉDITOS ECTS | COMPETENCIAS (códigos) |
---|---|---|---|---|---|
A1 - Clases expositivas en gran grupo
|
45.0 | 67.5 | 112.5 | 4.5 |
|
A2R - Clases en pequeño grupo
|
45.0 | 67.5 | 112.5 | 4.5 |
|
TOTALES: | 90.0 | 135.0 | 225.0 | 9.0 |
En las clases expositivas se explicará el contenido teórico necesario para el desarrollo y solución de las prácticas planteadas, así como para la gestión y control de datos a gran escala.
En las clases en grupos de prácticas se propondrán problemas individuales y en grupo que favorezcan el uso y comprensión de herramientas software para la gestión de BigData.
ASPECTO | CRITERIOS | INSTRUMENTO | PESO |
---|---|---|---|
Asistencia y/o participación en actividades presenciales y/o virtuales | Asistencia mínima a clases presenciales | Control de asistencia | 10.0% |
Conceptos teóricos de la materia | Dominio de los conocimientos teóricos de la materia | Prueba escrita | 30.0% |
Realización de trabajos, casos o ejercicios | Estructura y calidad de los trabajos presentados. | Entrega de trabajos | 20.0% |
Prácticas de laboratorio/campo/uso de herramientas TIC | Dominio de los conocimientos prácticos de la materia | Entrega de prácticas | 40.0% |
El sistema de calificación se regirá por lo establecido en el RD 1125/2003 de 5 de septiembre por el que se establece el sistema europeo de créditos y el sistema de calificaciones en la titulaciones universitarias de carácter oficial.
Atendiendo a lo recogido en el art. 13 del Reglamento de Régimen Académico y de Evaluación del alumnado de la Universidad de Jaén, la evaluación de la asignatura será global.
Para superar la asignatura, la nota final será la suma de las notas ponderadas de acuerdo a los criterios incluidos en el sistema de evaluación.
La nota obtenida por el alumno durante el periodo lectivo (nota de evaluación continua correspondiente a la asistencia y participación en clase, entrega de trabajos y entrega de prácticas de laboratorio) se mantendrá para las convocatorias oficiales del mismo curso.
La nota final se obtendrá ponderando de acuerdo a los pesos asignados a cada módulo:
Módulo 1. (22%) Diseño de arquitecturas para la computación distribuida. Se espera que el alumno demuestre la suficiencia en los resultados: Ser capaz de diseñar la arquitectura de un sistema de altas prestaciones para la gestión de datos a gran escala.
Módulo 2. (22%) Bases de datos para BigData. Se espera que el alumno demuestre la suficiencia en los resultados: Ser capaz de diseñar la arquitectura de un sistema de altas prestaciones para la gestión de datos a gran escala. Ser capaz de diseñar e implantar infraestructuras y plataformas para la virtualización y la computación en la nube.
Módulo 3. (22%) Sistemas de ficheros distribuidos y procesamiento de datos con Spark. Se espera que el alumno demuestre la suficiencia en los resultados: Ser capaz de diseñar e implantar infraestructuras y plataformas para la virtualización y la computación en la nube. Saber desarrollar servicios, componentes y aplicaciones basadas en la computación en la nube.
Módulo 4. (34%) Procesamiento de datos a gran escala con Open MPI. Se espera que el alumno demuestre la suficiencia en los resultados: Estar capacitado para implementar soluciones de programación para la computación distribuida y de altas prestaciones.
- Build the best data center facility for your business. Edición: 1st printing. Autor: Alger, Douglas. Editorial: Indianapolis, Indiana : Cisco Press, 2012 (C. Biblioteca)
- MongoDB in action [Recurso electrónico]. Edición: -. Autor: Banker, Kyle. Editorial: Shelter Island, NY : Manning, 2012 (C. Biblioteca)
- Big data for dummies [Recurso electrónico]. Edición: -. Autor: -. Editorial: Hoboken, NJ : John Wiley & Sons, Inc., 2013 (C. Biblioteca)
- Learning Spark [Recurso electrónico] : lightening fast data analysis. Edición: First edition. Autor: Karau, Holden. Editorial: Sebastopol, CA : O'Reilly Media, [2015] (C. Biblioteca)
- Unix and Linux system administration handbook. Edición: 4th ed. Autor: -. Editorial: Upper Saddle River (New Jersey) : Prentice Hall, 2011 (C. Biblioteca)
- MongoDB and Python [Recurso electrónico]. Edición: -. Autor: O'Higgins, Niall. Editorial: Sebastopol, Calif. : O'Reilly, 2011 (C. Biblioteca)
- The definitive guide to MongoDB [Recurso electrónico] : the noSQL database for cloud and desktop com. Edición: -. Autor: Plugge, Eelco, 1986-. Editorial: [S.l.] : Apress, c2010 (New York, N.Y. : Distributed to the book trade worldwide by Springer-Verlag New York) (C. Biblioteca)
- Big data : la revolución de los datos masivos. Edición: -. Autor: Mayer-Schönberger, Viktor. Editorial: Madrid : Turner, 2013 (C. Biblioteca)
- Machine learning with Spark [Recurso electrónico] : create scalable machine learning applications to. Edición: -. Autor: Pentreath, Nick. Editorial: Birmingham, UK : Packt Publishing, 2015 (C. Biblioteca)
- Using MPI: portable parallel programming with the message-passing interface. Edición: -. Autor: Gropp, William. Editorial: Massachusetts: The MIT Press, cop. 1999 (C. Biblioteca)
Semana 1. Módulo 1
Semana 2. Módulo 1
Semana 3. Módulo 1 y módulo 2
Semana 4. Módulo 2
Semana 5. Módulo 2
Semana 6. Módulo 2 y módulo 3
Semana 7. Módulo 3
Semana 8. Módulo 3
Semana 9. Módulo 3 y módulo 4
Semana 10. Módulo 4
Semana 11. Módulo 4
Semana 12. Módulo 4
Semana 13. Módulo 4