caminahora

ENTREVISTA A FRANCISCO HERRERA SOBRE CIENCIA DE DATOS Y BIG DATA EN INGENIERÍA CIVIL

fherreraFrancisco Herrera es catedrático en el departamento de Ciencias de la Computación e Inteligencia Artificial de la Universidad de Granada. Francisco Herrera ha sido reconocido recientemente como uno de los 3000 investigadores más influyentes del mundo por sus trabajos en inteligencia computacional, ciencia de datos y big data. El grupo de investigación que dirige,  “Soft Computing y Sistemas de Información Inteligentes” (SCI2S), ha ganado la “ECBDL’14 Big Data Competition”, un concurso celebrado este verano en Vancouver (Canadá).

Pregunta.  ¿Qué es la ciencia de datos? ¿Para qué se utiliza?

Respuesta. Es el conjunto de tecnologías que permiten el procesamiento de datos, la visualización de datos y la extracción de conocimiento a partir de datos. Intentan obtener conocimiento que hay implícito en los datos, conocimiento no visible a priori, que está ahí y que puede aportar valor al entorno empresarial o al entorno en que han surgido esos datos.

P. Dentro de la ciencia de datos está muy presente en la prensa el big data, ¿Qué es?

R. Big data es una parte de la ciencia de datos. Son un conjunto de tecnologías que se diseñan para el procesamiento de datos masivos. Consideramos el volumen de datos grande cuando los ordenadores normales no pueden procesar. Aumenta el número de millones de datos y el número de variables. Nos encontramos con gigabytes y petabytes de información, necesitando nuevas arquitecturas hardware de procesamiento distribuido, grandes clústers y por otro lado una serie de tecnologías de software que se empezaron a desarrollar en el 2003-2004 por google con el paradigma mapreduce y actualmente engloba otras tecnologías que permiten procesar ese conjunto masivo de datos para extraer conocimiento que pueda ser útil en el ámbito de la sociedad o de la empresa que dispone de los datos.

P. Existe un área en la que confluyen la ingeniería civil y la ciencia de datos, la smart city ¿Qué opinión te merece ese área?

R. La smart city es ya una realidad en la que se están combinando tecnologías de ingeniería civil en las ciudades junto con los sistemas inteligentes y técnicas de procesamiento de datos, ciencia de datos y big data para extraer conocimiento y tomar decisiones a partir de estos datos. Actualmente vamos hacia lo que se denomina como ciudades inteligentes y se prevé que en los próximos años ésta sea un área muy importante en la que irán de la mano los expertos en ingeniería civil y otras ingenierías con los expertos en ciencia de datos puesto que siempre que tengamos almacenamiento masivo de datos necesitamos las tecnologías de big data para extraer conocimiento y procesar, visualizar y poner en valor esos datos. La smart city va a ser un área muy importante en  la que vamos a ir de la mano la ingeniería civil y la ingeniería informática en general, y los científicos de datos en particular.

P. ¿Por qué puede ser interesante para el estudiante de ingeniería civil conocer la ciencia de los datos?

R. En todos los ámbitos profesionales, de empresa o de administración, vamos a tener muchos datos. Estamos en un mundo en el que los últimos años la capacidad de almacenamiento ha aumentado tremendamente. A partir de estos datos, lo que nos interesa es: ¿Qué puedo hacer con ellos?¿Qué puedo predecir a partir de ellos?¿Qué conocimiento puedo obtener? En el ámbito de ingeniería civil la sensórica en las infraestructuras va a permitir tener un almacenamiento masivo de datos. A partir de éstos datos, el ingeniero civil puede plantearse  ¿qué puedo aprender de ellos? y en ese momento entra la ciencia de datos.

P. ¿Qué puesto podría ocupar un ingeniero civil en un equipo que hace un proyecto de ciencia de datos?

R. En todo proyecto de ciencia de datos hacen falta tres grandes globos: la parte de conocimiento matemático y estadístico del modelado, la parte computacional (el conocimiento de los lenguajes de programación y de las tecnologías de extracción del conocimiento) y el tercer globo es el experto en el problema. Si se quiere utilizar la ciencia de datos en la ingeniería civil es fundamental contar con expertos en ingeniería civil que van a plantear los problemas que tienen y hacia dónde quieren ir. Un experto en ciencia de datos no extrae conocimiento sin saber hacia dónde va. Tiene que saber qué objetivos persiguen y hacia dónde se quiere llegar con esos datos.

P. ¿Puede ser interesante que el experto en el problema conozca la ciencia de los datos para facilitar el proceso?

R. Obviamente si el experto en el problema tiene conocimiento en ciencia de datos va a tener a priori claro hacia dónde se quiere ir, puede que incluso a conocer qué técnicas hay, qué se puede aplicar y va a aportar mucho más valor al equipo por supuesto. Al margen de que puedan existir expertos en ciencia de datos en tecnologías muy avanzadas que el experto en ingeniería civil no conozca.

P.  ¿Cuánto tiempo crees que debería invertir formándose y practicando un estudiante de ingeniería que no sea informática pero con una buena base de matemáticas, estadística y nociones de programación para ser el experto en el problema que conoce la ciencia de los datos?

R. Para tener un conocimiento inicial, probablemente un año de trabajo que mejore sus capacidades de programación, conozca los lenguajes adecuados y las herramientas básicas de minería de datos y ciencia de datos. Ser un buen experto en ciencia de datos es una carrera de fondo y en la que continuamente estamos en proceso de aprendizaje, encontrando problemas nuevos y estructuras de datos que relacionan datos diferentes. Esto requiere el diseño de algoritmos nuevos y nuevas tecnologías. El científico de datos es una profesión que está en continua evolución pero un graduado de ingeniería con la formación que comentas en un año puede tener una buena formación básica para comenzar a trabajar.

P. En ese año, ¿Qué lenguajes de programación debería aprender?¿Cuáles son los más utilizados en la actualidad?¿para qué se utilizan?

R. Los científicos de datos trabajan con diferentes lenguajes. Entre los lenguajes generícos el más utilizado en la actualidad es python, hace años eran java y C que ahora están en retroceso. Luego existe un lenguaje muy específico, el lenguaje R, que surgió en el ámbito de la estadística para el modelado de datos  y actualmente es el lenguaje más utilizado.

P. ¿Cuáles son las ventajas del lenguaje R?

R. Incluye una biblioteca de paquetes de software, CRAN, que tiene actualmente alrededor de 6000 paquetes. Son paquetes de código abierto por lo que un buen conocimiento del lenguaje R permitirá usar los paquetes e incluso adaptarlos a nuestros problemas. Tener un profundo conocimiento de R permitiría acceder a un conjunto muy importante de bibliotecas de ciencia de datos para resolver problemas.

P. ¿Cómo puede acceder un estudiante al conocimiento en ciencia de datos que acumulan los investigadores de la escuela de informática de la Universidad de Granada?

R. Los estudiantes de informática tienen asignaturas relacionadas en dos de los perfiles. En el de sistemas de información tienen la asignatura de inteligencia de negocio y en el perfil de inteligencia artificial tienen la asignatura de machine learning. Para cualquier otro estudiante existen cursos de verano y un máster. El curso pasado organizamos un curso de verano en la Universidad Internacional de Andalucía, en la sede de Baeza, de introducción a las herramientas básicas de programación en ciencia de datos y big data. Además, tenemos un máster en ciencia de datos que se cursa por primera vez este año. Es un máster que da una formación muy completa en un año a ciencia de datos. Está dirigido inicialmente a estudiantes de informática pero este año tenemos estudiantes de ingeniería industrial y de matemáticas. El año pasado en nuestro máster de sistemas inteligentes había varios ingenieros de caminos. El máster introduce de manera profunda al conocimiento en ciencia de datos. Un ingeniero con una buena formación en matemáticas y nociones de programación, afianzará éstas a lo largo del máster porque el primer curso introduce al lenguaje de programación R. Puede ser un perfecto punto de encuentro con la ciencia de datos.

P. Enhorabuena, en 2014 sois reconocidos como el puesto 20 del ránking de Taiwan en computer science, un hito histórico para la Universidad española. ¿Qué habéis hecho bien en particular para llegar a ese nivel como Escuela?

R. Los estudios de informática en la Universidad de Granada cumplieron el año pasado 25 años. Es un centro que tiene su origen en grupos de investigación que ya trabajaban en el ámbito de la informática y la inteligencia artificial, electrónica, etc…En éstos 25 años se ha desarrollado una buena labor de investigación. El ránking de Taiwan mide las publicaciones en los últimos 2 años y la citabilidad que tienen, su índice h y las publicaciones de los últimos 10 años y su citabilidad, otorgando
el 50% a cada uno de éstos plazos. El resultado indica que en el corto plazo y en largo plazo mantenemos una productividad de calidad. Son grupos dinámicos con una actividad importante y una decidida internacionalización. El nivel de colaboración internacional y la visibilidad del trabajo son importantes en el ránking de Taiwan.

Han colaborado en el diseño de ésta entrevista: Jaime Benavides, Juan Chiachio e Ignacio de Sande.

Equipo impulsor

El equipo impulsor de caminahora está formado por Jose Aguilar Medina, Manuel Chiachio, Juan Chiachio y Jaime Benavides. Tiene como misión conectar e intercambiar experiencias de profesionales, con inquietudes de estudiantes, recién licenciados y profesionales.

1 comentario