lundi 30 janvier 2012

Pentaho passe PDI en licence Apache et annonce des fonctionnalités BigData

Pentaho Data Integration passe en licence Apache 2.0:


 Pentaho ouvre les sources des fonctionnalités BigData dans sa plate forme PDI 4.3. L'ensemble du projet passe de la licence LGPL à la licence Apache 2.0.

Jusqu'ici les fonctionnalités BigData de Pentaho faisaient exclusivement partie de la version commerciale de Pentaho et seront ainsi rendus disponible à la communauté.

Ce passage à la licence Apache fait du sens du fait que la plupart des composants de l'écosystème Hadoop sont des projets de l'Apache Foundation.

Pentaho va ainsi profiter du buzz autour des produits BigData et NoSQL en général et Apache Hadoop en particulier.


Booster sa productivité lors de l'intégration de BigDatas:

Pentaho va venir couvrir un besoin réel des utilisateurs concernant Hadoop: la facilité d'intégration des données.
Aujourd'hui, Apache possède un écosystème permettant de simplifier l'intégration de données. Des outils comme Sqoop (import de database dans Hadoop) ou Chukwa (Récupération de logs machine) permettent d'automatiser et simplifier ces imports.
Néanmoins le placement de PDI en open source apporte un outil graphique facile à prendre en main pour intégrer des données dans Hadoop pour toutes les source disponibles dans PDI.

Les fonctionnalités sont nombreuses et résumées ici

Entre autre:
  • Import/Export de données dans HDFS (système de fichiers distribué), Hive (Datawarehouse SQL distribué basé sur Hadoop), Hbase (base clé-valeur basée sur Hadoop), Cassandra, MongoDB.
  • Application de transformation et de job de type Map/Reduce.
  • Lecture de données avec Pig.
  • Intégration de MapR pour la fouille de données.


Placement par rapport à Talend:

La principale question aujourd'hui est de savoir si le concurrent direct de PDI dans le monde de l'ETL open source à savoir Talend va s'aligner sur cette gratuité des composants BigData.
En effet les composants BigData de Talend sont aujourd'hui seulement disponibles dans la version TIS Mpx soit une version payante de Talend.

A suivre dans un prochain tutorial sur Hadoop/PDI...


[Test] Jasper 4.5 Entreprise et MobileBI

Un monde de mobilité:

Gartner l'a dit,les éditeurs devront s'y plier, la BI va continuer à évoluer vers la mobilité cette année.
Le BYOT (Bring Your Own Technology) serait plus que jamais d'actualité et les solutions logicielles devront supporter les terminaux mobiles tels que tablettes et smartphones.

Actuate a annoncé il y a quelques semaines la sortie d'une version mobile de son portail embarquant BIRT.

Spago BI annonce la mobilité dans sa roadmap de 2012.

Pentaho aussi à son arsenal d'applications Android et Apple pour rentrer dans le monde de la mobilité.

Jedox propose également des applications à la fois Android et Apple pour les supports tablette.

En bref tout le monde s'y met dans le petit monde l'osbi.

En commençant par la suite de JasperSoft, nous verrons dans différents articles comment chaque suite BI open source a intégré le principe de BI mobile dans son offre.

Jasper BI Suite:

Jaspersoft fait le pari du Web. La version 4 de l'outil a recentré l'interface vers le Web 2.0. Les éléments de navigation ont été simplifié et agrandi et permettent une utilisation aisée sur des petits écrans de 10 pouces.

L'avantage d'utiliser le web est de retrouver toutes les fonctionnalités de la plate forme de base sans avoir à le recoder dans une application dédiée. Le désavantage est la perte de fluidité dans la navigation.

Les smartphones n'ont pas été oubliés et une application est disponible sur l'Apple Store: ici. Elle est gratuite.
Cette application ne reprend pas toutes les fonctionnalités de la plate forme Jasper. Elle permet surtout d'accéder rapidement à des rapports simples (pas de rapports ad-Hoc ou d'analyses OLAP).



Après un test sur une tablette Android Asus Transformer, le constat est intéressant.
La navigation est aisée. Les rapports sont accessibles simplement, les rapports en Flash et les Dashboards s'affichent correctement ainsi que les analyses OLAP.

Petit regret, les rapports adhoc qui semblent fonctionner dans la démo ipad de la vidéo ne fonctionnent pas dans le navigateur chrome-like d'Android.

En conclusion:

Les + :

-Navigation Web optimisée pour les tablettes.
-Application iPhone dans l'apple store gratuite.
-Toutes les fonctionnalités de JasperBI Suite sont présentes.

Les - :

-Pas d'application Android dédiée.
-Quelques fonctionnalités tels que le ad-hoc ne fonctionnent pas sur tablette Android.

























samedi 29 janvier 2011

[Tutorial] Premier pas avec Talend MDM version community 1/4

Je débute une série d'articles sur le Master Data Management en général et sur la plate forme MDM de Talend en particulier.

Le but de la démarche MDM (Master Data Management) est de fournir un outil de gestion des données référentielles dans un SI hétérogène. Les outils mdm permettent à une entreprise de définir ses données référentielles et de les partager entre les différentes applications métiers en garantissant leur exactitude par rapport au référentiel.

Talend a débuté son offre mdm à l'automne 2010. L'éditeur open source français a acquis un acteur existant (Amalto) pour disposer d'une technologie mdm très rapidement. Cette offre est venu compléter les deux briques existantes de Talend: L'ETL et la brique qualité de données TOP. Talend en a profité pour unifier ces trois briques au sein du même studio appelé Talend MDM Studio (TOS and TOP) disponible ici.

Ce tutorial aura pour but de se familiariser avec l'interface de Talend mdm en passant en revue les différents composants de la suite, en définissant un modèle simple, quelques règles métiers et des synchronisations vers des sorties non référentielles à l'aide de l'etl TOS.

Architecture de la solution mdm Talend Community

  1. Le serveur mdm
  2. Ce serveur est une application J2EE hébergée sur un serveur d'application JBoss. Il sert à centraliser et partager toute l'information mdm. On peut accéder au serveur par une perspective du studio Talend.
  3. Le studio Talend
  4. Le studio Talend permet de définir les différents éléments contenus sur le serveur. Il permet ainsi de développer et déployer sur le serveur mdm des modèles de données et les conteneurs de données associés puis les triggers et les jobs qui servent à les alimenter.
     
    Pour le développement de ces jobs, l'etl TOS inclut des composants dédiés au mdm. Ces composants permettent par exemple d'entrer des données dans le référentiel ( tMDMInput), d'en sortir (tMDMOutput), d'en supprimer (tMDMDelete), ou d'intercepter des évènements sur les données référentiels tels que des update ou des delete (tMDMReceive) au travers de webservices.
  1. L'application web mdmserver
L'application web mdmserver est la console liée aux opérateurs non techniques. Elle permet d'ajouter et/ou modifier à la main des données référentielles. Elle permet également un reporting de ses données référentielles.




Nous allons voir la démarche d'implémentation d'un référentiel MDM dans Talend à l'aide d'une petite étude de cas qui va nous amener à créer un référentiel client. Nous verrons ainsi plus en détail les différentes fonctionnalités apportés par Talend MDM.
    Etude de cas: définition d'un référentiel client

    Le cahier des charges de cette étude de cas est simple. On va utiliser le MDM De Talend pour définir un référentiel client. Ce référentiel servira à alimenter en temps réel un outil de CRM de type Sugar CRM et une dimension client d'un datawarehouse de type BI de type Slowly Changing Dimension.

    Dans le prochain article de ce tutorial, nous définirons le modèle de données du référentiel client dans le serveur mdm de Talend.

     

    mercredi 19 janvier 2011

    [Tutorial] Couplage de l'etl Talend TOS avec un serveur SVN subversion sur Ubuntu

    Ce post va donner une petite méthode pour coupler un serveur svn sur un poste Ubuntu avec un etl Talend Open Studio. En effet, Talend TOS permet de donner un numéro de version aux jobs développés mais ne permet pas nativement de centraliser ce versionning sur un serveur svn. 
    Cette fonctionnalité peut être vitale dans le cas où le développement des jobs etl se fait à plusieurs. La version payante de Talend, Talend Integration Suite propose cette fonctionnalité de versionning totalement intégrée dans le studio.

    Prérequis

     Paquets à installer au préalable sur le serveur svn:
    • paquet apache2
    • subversion
    • libapache2-svn
    Configuration du partage svn par http.

    Création du repository svn dans le dossier /var/svn:


    Attribution de la propriété du repository à l'utilisateur apache:


    Partage du repository créé grâce à apache:

    sudo vim /etc/apache2/mods-enabled/dav_svn.conf

    Rajouter:
    <Location /svn_tos>
      DAV svn
      SVNPath /var/svn/svn_tos
    </Location>

    Redémarrage du serveur apache




    Dans un navigateur, à l'adresse http://localhost/svn_tos, on peut visualiser le repository svn.

    Installation d'un client svn subersion dans la plate_forme Talend

    Talend 4.1.2 est basé sur une plate forme Eclipse 3.5. On peut donc installer un client subversion en tant que simple plugin eclipse.
    Télécharger le client subclipse 1.06 ici
    Dézipper le contenu des dossiers features et plugins dans les dossiers du même nom dans l'installation de Talend.
    Créer un projet nommé svn_test puis un job de test.
    Faire un commit initial du projet dans le serveur subversion à l'aide de l'onglet équipe.
    Quitter Talend et se reconnecter à l'aide d'un autre workspace en créant un projet du même nom pour simuler des développeurs multiples.
    Se connecter au référentiel svn et faire un checkout du projet en tant que projet eclipse.
    En revenant dans le référentiel de jobs Talend, on peut visualiser le projet créé précédement sur le svn. On peut ensuite à loisir modifier ces jobs Talend et faire un commit des fichiers de projet Talend.

    Pour voir TOS couplé à svn en action:
      





    En conclusion, on voit qu'il est possible de donner des capacités basiques de versionning à Talend à l'aide de cette méthode. L'action de committer ses développements reste à l'initiative du développeur et il suffira d'un peu de méthode et d'organisation pour éviter les conflits de versions.
    Parallèlement, la version TIS payante de Talend permet le versionning de façon totalement intégré et transparente (à chaque sauvegarde des jobs etl...) et couple ceci à une plate-forme web de déploiement et de monitoring d'exécution des jobs finaux. Les cycles de développement-déploiement-exécution-suivi seront ainsi considérablement raccourcis et la productivité sera améliorée.

    jeudi 13 janvier 2011

    [Annonce] Jaspersoft annonce la version 4 de son serveur BI JasperServer

    JasperServer s'offre une version 4 de son serveur BI pour la nouvelle année.

    Une video de présentation détaillée de la nouvelle plate-forme est disponible:




    Au programme de cette version, on a une refonte totale de l'interface graphique. Ces modifications visent séparer de façon les couches de présentation (feuilles CSS), de gestion des évènements (javascript) et de modèle (jsp).

    Ainsi cette nouvelle version vise à faciliter la customisation graphique de JasperServer pour l'adapter plus facilement à la charte graphique d'un client ou l'intégration dans une application d'entreprise tierce.

    Au passage, l'identité graphique de JasperServer s'en retrouve entièrement modifiée et améliorée.

    La navigation est plus aisée grâce à un moteur de recherche de rapports intégrée dans la barre d'outil.

    Jasper annonce la possibilité de créer des thèmes optimisé pour les terminaux mobiles suivant ainsi les prédiction de Gartner sur le sujet.

    Pour finir, une webinar de présentation de la nouvelle plate-forme Jasper aura lieu le 19 Janvier en Français. Les inscriptions sont ici 

    lundi 10 janvier 2011

    Commencement

    Parce qu'il faut bien commencer quelque part...

    Depuis que j'ai commencé à travailler dans le domaine de la BI open source (presque 3 ans), j'ai constaté la rapidité avec laquelle les solutions BI open source ont évolué. Nous sommes passés en 3 ans de solutions menées par des communautés à de véritables éditeurs de solutions complètes et très riches en fonctionnalités.

    Parallèlement, un véritable business modèle open source a émergé au fil des années avec ses avantages et inconvénients. 

    On a vu émerger des solutions open source crédibles, complètes et rentables grâce aux éditeurs open source et leurs communautés.

    On a aujourd'hui des éditeurs open source bien identifiés avec souvent un modèle économique à deux étages: une version open source qui sert souvent de démo ou d'accroche marketing et une version payante soumise à paiement pour profiter de fonctionnalités supplémentaires.

    Aujourd'hui les fonctionnalités de base sont bien installées: base de données, ETL, reporting, OLAP sont des fonctionnalités bien établis. Les principales défis de la BI open source aujourd'hui sont au niveau de l'expérience utilisateur et dans la prise en compte des utilisateurs non techniques.

    Ce blog a pour objectif de donner toutes les visions possibles de la BI open source et de ses domaines connexes, de surveiller et analyser les nouveautés des solutions, de donner des bonnes pratiques et des cas d'utilisations précis. L'envie principale est de partager mon expérience et mon enthousiasme pour l'open source et la BI en particulier et d'aider ceux qui auraient envie de s'y intéresser.

    Bonne lecture...