Curso recomendado

lunes, 21 de febrero de 2011

Data Mining - MADlib libreria para hacer Data Mining en BBDD

Ya cada vez más tenemos todo tipo de iniciativas, la última y que más me ha llamado la atención es MADlib.

Hace ya unos años todas las empresas de BBDD añadieron algoritmos de minería a sus distribuciones, me acuerdo que teníamos más de una discusión sobre si era por que quería orientarse la empresa al analítico o por el hecho que sus divisiones de analítico no habían conseguido cuajar y aprobechaban el trabajo hecho dando alguna funcionalidad más a sus productos estrella; la verdad es que no he visto ningún proyecto de analítico que tuviera como soporte este tipo de software...

Ahora con MADlib tenemos más o menos lo mismo pero en software libre, una librería para hacer en BBDD, en concreto parece que en principio la BBDD GPL que lo soporta es PostgresSQL, aunque parece que también soportará a Greenplum, una BBDD propietaria que no tenía este tipo de servicios; en si parece que Greenplum se ha asociado con "Data Research Group" de la universidad de Berkely para desarrollar esta funcionalidad.

En lo que respecta a la utilidad, pues la verdad dudo que llegue a suplir la necesidad de algún software de análisis de datos a la hora de construir modelos, sinceramente considero mucho más interesante tener la capacidad de explotarlos, es decir, de importar modelo en PMML y explotarlo y no me extrañaría nada que al final esta herramienta se le añadiera esta capacidad, es más, creo que es un objetivo final ya que está en una fase muy inicial de desarrollo y todavía no se sabe hacia donde derivará.

Siceramente si al final es capaz de explotar PMML, si se le da soporte a más BBDD (uno de los puntos donde dicen que tienen que crecer) podría convertirse en una herramienta muy interesante dentro del mundo GPL, si no coge este camino dudo que tengamos más noticias sobre él.

No hay comentarios: