Big data: Tecnologías para el procesamiento y analítica de datos en big data

Descripción

Vivimos en una sociedad digital donde el desarrollo de las tecnologías de la información y las comunicaciones y su popularidad a nivel mundial han ayudado a eliminar fronteras y han creado multitud de servicios donde los datos son un eje central de su funcionamiento.
La gran cantidad de datos disponible en la actualidad junto con las herramientas necesarias para su procesamiento conforman lo que conocemos hoy día como big data. En este seminario se realiza un breve recorrido sobre las tecnologías de big data  que han emergido con fuerza en los últimos años, prestando atención tanto a la tecnología (Hadoop, Spark, …) como a las aplicaciones en diferentes ámbitos.
Se analizarán algunos algoritmos de analítica de datos tanto desde una perspectiva práctica con diferentes casos de estudio como desde la perspectiva del  diseño de los algoritmos. Se estudiarán los paso a dar para disponer de un algoritmo escalable para big data a partir de algoritmos clásicos de extracción de conocimiento (clasificación, clustering, reglas de asociación y preprocesamiento de datos).

 

Contenidos y Agenda

Part 1: Introducción a Big Data (50 minutos)

  • ¿Qué es big data?
  • Modelo de Programación MapReduce
  • Un caso de estudio: Google Flu y otros estudios
  • Limitaciones de MapReduce
  • Tecnologías para big data. Ecosistema Hadoop (Hadoop, Spark …)
  • Algunas aplicaciones

Part 2: Diseño de algoritmos de analítica de datos en Big Data. Casos de estudio (70 minutos)

  • Librerías para la analítica de datos en Big Data:  Mahout, MLlib, H20, SparkR …
  • Algoritmos de clasificación para Big Data
    • Caso de estudio 1. Random Forest con Mahout y Spark
    • Caso de estudio 2.  Predicción de contacto en proteinas (Big Data competition 2014)
  • Deep Learning
  • Aprendizaje no supervisado
    • Diseño de algoritmos de clustering
    • Diseño de algoritmos de asociación
  • Preprocesamiento de datos en Big Data

 

Materiales

Las transparencias de la presentación se podrá descargar en el siguiente enlace [Transparencias].

 

Audiencia

Graduados con conocimientos de minería de datos (aprendizaje supervisado, no supervisado, preprocesamiento)

 

Ponente

Francisco Herrera
Dpto. de Ciencias de la Computación e Inteligencia Artificial
Universidad de Granada
[Web]
herrera@decsai.ugr.es

herrera
Francisco Herrera es catedrático en el Dpto. de Ciencias de la Computación e Inteligencia Artificial de la Universidad de Granada. Dirige el grupo de investigación “Soft Computing y Sistemas de Información Inteligentes” http://sci2s.ugr.es.
Ha dirigido 36 tesis doctorales y publicado más de 300 artículos en revistas internacionales. Es coautor de los libros científicos “Genetic Fuzzy Systems” (World Scientific, 2001) y “Data Preprocessing in Data Mining” (Springer, 2015). Es autor del libro divulgativo: “Inteligencia Artificial, Inteligencia Computacional y Big Data. Servicio Pub. Univ. Jaen, 2014. ISBN: 978-84-8439-891-2 Online: http://issuu.com/secacult_uja/docs/libro_francisco_herrera.indd
Es coordinador de la Red de Excelencia Big Data “Big Data y Análisis de Datos Escalable”. En el 2014 con el equipo EFDAMIS (I.Triguero, S. del Río, V. López, J.M. Benítez, F. Herrera) recibió el primer premio de la competición de big data ECBDL’2014 (Vancouver, Julio, 2014).

 

Referencias

  • A. Fernandez, S. Río, V. López, A. Bawakid, M.J. del Jesus, J.M. Benítez, F. Herrera, Big Data with Cloud Computing: An Insight on the Computing Environment, MapReduce and Programming Frameworks. WIREs Data Mining and Knowledge Discovery 4:5 (2014) 380-409.
  • F. Herrera. Inteligencia Artificial, Inteligencia Computacional y Big Data. Colección Natural de Jaén, Universidad de Jaén, 2014. [link]
  • V. Mayer-Schönberger, K. Cukier (2013). Big Data. La revolución de los datos masivos. Turner.

 

Ilustraciones de la ciudad de Albacete cedidas por Alicia Gosalbez
Copyright © 2019 Conferencia CAEPIA 2015