lundi 30 janvier 2012

Pentaho passe PDI en licence Apache et annonce des fonctionnalités BigData

Pentaho Data Integration passe en licence Apache 2.0:


 Pentaho ouvre les sources des fonctionnalités BigData dans sa plate forme PDI 4.3. L'ensemble du projet passe de la licence LGPL à la licence Apache 2.0.

Jusqu'ici les fonctionnalités BigData de Pentaho faisaient exclusivement partie de la version commerciale de Pentaho et seront ainsi rendus disponible à la communauté.

Ce passage à la licence Apache fait du sens du fait que la plupart des composants de l'écosystème Hadoop sont des projets de l'Apache Foundation.

Pentaho va ainsi profiter du buzz autour des produits BigData et NoSQL en général et Apache Hadoop en particulier.


Booster sa productivité lors de l'intégration de BigDatas:

Pentaho va venir couvrir un besoin réel des utilisateurs concernant Hadoop: la facilité d'intégration des données.
Aujourd'hui, Apache possède un écosystème permettant de simplifier l'intégration de données. Des outils comme Sqoop (import de database dans Hadoop) ou Chukwa (Récupération de logs machine) permettent d'automatiser et simplifier ces imports.
Néanmoins le placement de PDI en open source apporte un outil graphique facile à prendre en main pour intégrer des données dans Hadoop pour toutes les source disponibles dans PDI.

Les fonctionnalités sont nombreuses et résumées ici

Entre autre:
  • Import/Export de données dans HDFS (système de fichiers distribué), Hive (Datawarehouse SQL distribué basé sur Hadoop), Hbase (base clé-valeur basée sur Hadoop), Cassandra, MongoDB.
  • Application de transformation et de job de type Map/Reduce.
  • Lecture de données avec Pig.
  • Intégration de MapR pour la fouille de données.


Placement par rapport à Talend:

La principale question aujourd'hui est de savoir si le concurrent direct de PDI dans le monde de l'ETL open source à savoir Talend va s'aligner sur cette gratuité des composants BigData.
En effet les composants BigData de Talend sont aujourd'hui seulement disponibles dans la version TIS Mpx soit une version payante de Talend.

A suivre dans un prochain tutorial sur Hadoop/PDI...


Aucun commentaire:

Enregistrer un commentaire