Curso recomendado

jueves, 1 de octubre de 2009

Data Mining - Knime

Bueno por fin estoy de nuevo por aquí, hoy os presentaré una nueva aplicación de software libre que promete convertirse con el tiempo en una de opciones más interesantes a la hora de hacer nuestros proyectos, esta se llama KNIME.

Esta herramienta utiliza una interficie muy parecida a Clementine y no sólo para ayudarnos a la hora de hacer análisis con los datos, sino que también nos permite tratar datos, es decir, podemos crear procesos de ETL dentro del mismo entorno en el cual hacemos análisis; esto hace que, desde mi punto de vista, esta herramienta sea la más accesible para el neófito dentro del mundo GPL.

Otro punto muy interesante es que está programada en JAVA, osea que es independiente de plataforma, es decir, que corre igual en Windows, Linux o Mac.

Bueno pero dejemos la teoría y veamos que pinta tiene un proceso de esta herramienta, justo debajo de estas líneas tenéis uno de los procesos más clásicos de cualquier herramienta de minería de datos, el entreno de un árbol de decisión así como su explotación.

Sinceramente a mi me recuerda a una mezcla entre Weka y Clementiene... Si queréis ver la herramienta en funcionamiento tenéis un par de vídeos aquí.

Pero lo mejor de todo es que esta herramienta a partir de ampliaciones permite ejecutar script's de R, incluidos gráficos, y también permite ejecutar gran cantidad de algoritmos importados de Weka, a demás de permitir crear tu propios nodos, siempre y cuando te veas con corazón de desarrollarlos. Esta capacidad de tener unas API's generalistas que permiten a los usuarios diseñar sus propios procesos es una capacidad muy a tener en cuenta, ya que hará que la herramienta crezca con el soporte de los usuarios, incluso ya hay empresas que desarrollan sus propios nodos.

La capacidad de agrupar otras herramientas GPL que no tienen buenas capacidades de "movimiento de datos" (recordamos que R tiene problemas para tratar grandes volúmenes de datos y a Weka le pasa exactamente igual) dentro de un entorno gráfico amigable, capaz de hacer procesos ETL de manera eficiente y llamar a herramientas de modelización justo en el punto que se necesita es un grandísimo acierto. Otro punto donde han dado en el clavo es que tiene capacidad de guardar los modelos en PMML, por lo tanto podemos crear nuestros modelos Knime y explotarlos con cualquier herramienta que sea capaz de importar PMML, o al reves, podemos crear nuestros modelos con otra herramienta y explotarlos en KNIME.

Por último decir que el software es gratuito, aunque hace unos meses pusieron a la venta un servicio de soporte por unos 2000€ anuales para un único usuario, irrisorio si lo comparamos con cualquier mantenimiento de otra herramienta privativa.

Sicéramente intuyo que esta herramienta va a dar mucha guerra en un futuro a medio plazo, el modelo de negocio de permitir que cualquiera desarrolle sobre su plataforma pero que el soporte se pague a parte es un clásico dentro del mundo GPL, y ya hay muchas empresas que han conseguido su nicho de mercado como Red Had o Suse con este tipo de modelo y no me extrañaría nada que Knime consiguiera introducirse en el mercado totalmente dualizado entre SAS y SPSS haciendo que las cosas cambien.

2 comentarios:

property dijo...

Thanks for sharing,although I can't understand what your blog is saying....

Jesús Lagos dijo...

Can't you understand the language or the matter of the blog?

If it's the first, on the top left corner we have 3 flags icons to use the google translate tool.