samedi 29 janvier 2011

[Tutorial] Premier pas avec Talend MDM version community 1/4

Je débute une série d'articles sur le Master Data Management en général et sur la plate forme MDM de Talend en particulier.

Le but de la démarche MDM (Master Data Management) est de fournir un outil de gestion des données référentielles dans un SI hétérogène. Les outils mdm permettent à une entreprise de définir ses données référentielles et de les partager entre les différentes applications métiers en garantissant leur exactitude par rapport au référentiel.

Talend a débuté son offre mdm à l'automne 2010. L'éditeur open source français a acquis un acteur existant (Amalto) pour disposer d'une technologie mdm très rapidement. Cette offre est venu compléter les deux briques existantes de Talend: L'ETL et la brique qualité de données TOP. Talend en a profité pour unifier ces trois briques au sein du même studio appelé Talend MDM Studio (TOS and TOP) disponible ici.

Ce tutorial aura pour but de se familiariser avec l'interface de Talend mdm en passant en revue les différents composants de la suite, en définissant un modèle simple, quelques règles métiers et des synchronisations vers des sorties non référentielles à l'aide de l'etl TOS.

Architecture de la solution mdm Talend Community

  1. Le serveur mdm
  2. Ce serveur est une application J2EE hébergée sur un serveur d'application JBoss. Il sert à centraliser et partager toute l'information mdm. On peut accéder au serveur par une perspective du studio Talend.
  3. Le studio Talend
  4. Le studio Talend permet de définir les différents éléments contenus sur le serveur. Il permet ainsi de développer et déployer sur le serveur mdm des modèles de données et les conteneurs de données associés puis les triggers et les jobs qui servent à les alimenter.
     
    Pour le développement de ces jobs, l'etl TOS inclut des composants dédiés au mdm. Ces composants permettent par exemple d'entrer des données dans le référentiel ( tMDMInput), d'en sortir (tMDMOutput), d'en supprimer (tMDMDelete), ou d'intercepter des évènements sur les données référentiels tels que des update ou des delete (tMDMReceive) au travers de webservices.
  1. L'application web mdmserver
L'application web mdmserver est la console liée aux opérateurs non techniques. Elle permet d'ajouter et/ou modifier à la main des données référentielles. Elle permet également un reporting de ses données référentielles.




Nous allons voir la démarche d'implémentation d'un référentiel MDM dans Talend à l'aide d'une petite étude de cas qui va nous amener à créer un référentiel client. Nous verrons ainsi plus en détail les différentes fonctionnalités apportés par Talend MDM.
    Etude de cas: définition d'un référentiel client

    Le cahier des charges de cette étude de cas est simple. On va utiliser le MDM De Talend pour définir un référentiel client. Ce référentiel servira à alimenter en temps réel un outil de CRM de type Sugar CRM et une dimension client d'un datawarehouse de type BI de type Slowly Changing Dimension.

    Dans le prochain article de ce tutorial, nous définirons le modèle de données du référentiel client dans le serveur mdm de Talend.

     

    mercredi 19 janvier 2011

    [Tutorial] Couplage de l'etl Talend TOS avec un serveur SVN subversion sur Ubuntu

    Ce post va donner une petite méthode pour coupler un serveur svn sur un poste Ubuntu avec un etl Talend Open Studio. En effet, Talend TOS permet de donner un numéro de version aux jobs développés mais ne permet pas nativement de centraliser ce versionning sur un serveur svn. 
    Cette fonctionnalité peut être vitale dans le cas où le développement des jobs etl se fait à plusieurs. La version payante de Talend, Talend Integration Suite propose cette fonctionnalité de versionning totalement intégrée dans le studio.

    Prérequis

     Paquets à installer au préalable sur le serveur svn:
    • paquet apache2
    • subversion
    • libapache2-svn
    Configuration du partage svn par http.

    Création du repository svn dans le dossier /var/svn:


    Attribution de la propriété du repository à l'utilisateur apache:


    Partage du repository créé grâce à apache:

    sudo vim /etc/apache2/mods-enabled/dav_svn.conf

    Rajouter:
    <Location /svn_tos>
      DAV svn
      SVNPath /var/svn/svn_tos
    </Location>

    Redémarrage du serveur apache




    Dans un navigateur, à l'adresse http://localhost/svn_tos, on peut visualiser le repository svn.

    Installation d'un client svn subersion dans la plate_forme Talend

    Talend 4.1.2 est basé sur une plate forme Eclipse 3.5. On peut donc installer un client subversion en tant que simple plugin eclipse.
    Télécharger le client subclipse 1.06 ici
    Dézipper le contenu des dossiers features et plugins dans les dossiers du même nom dans l'installation de Talend.
    Créer un projet nommé svn_test puis un job de test.
    Faire un commit initial du projet dans le serveur subversion à l'aide de l'onglet équipe.
    Quitter Talend et se reconnecter à l'aide d'un autre workspace en créant un projet du même nom pour simuler des développeurs multiples.
    Se connecter au référentiel svn et faire un checkout du projet en tant que projet eclipse.
    En revenant dans le référentiel de jobs Talend, on peut visualiser le projet créé précédement sur le svn. On peut ensuite à loisir modifier ces jobs Talend et faire un commit des fichiers de projet Talend.

    Pour voir TOS couplé à svn en action:
      





    En conclusion, on voit qu'il est possible de donner des capacités basiques de versionning à Talend à l'aide de cette méthode. L'action de committer ses développements reste à l'initiative du développeur et il suffira d'un peu de méthode et d'organisation pour éviter les conflits de versions.
    Parallèlement, la version TIS payante de Talend permet le versionning de façon totalement intégré et transparente (à chaque sauvegarde des jobs etl...) et couple ceci à une plate-forme web de déploiement et de monitoring d'exécution des jobs finaux. Les cycles de développement-déploiement-exécution-suivi seront ainsi considérablement raccourcis et la productivité sera améliorée.

    jeudi 13 janvier 2011

    [Annonce] Jaspersoft annonce la version 4 de son serveur BI JasperServer

    JasperServer s'offre une version 4 de son serveur BI pour la nouvelle année.

    Une video de présentation détaillée de la nouvelle plate-forme est disponible:




    Au programme de cette version, on a une refonte totale de l'interface graphique. Ces modifications visent séparer de façon les couches de présentation (feuilles CSS), de gestion des évènements (javascript) et de modèle (jsp).

    Ainsi cette nouvelle version vise à faciliter la customisation graphique de JasperServer pour l'adapter plus facilement à la charte graphique d'un client ou l'intégration dans une application d'entreprise tierce.

    Au passage, l'identité graphique de JasperServer s'en retrouve entièrement modifiée et améliorée.

    La navigation est plus aisée grâce à un moteur de recherche de rapports intégrée dans la barre d'outil.

    Jasper annonce la possibilité de créer des thèmes optimisé pour les terminaux mobiles suivant ainsi les prédiction de Gartner sur le sujet.

    Pour finir, une webinar de présentation de la nouvelle plate-forme Jasper aura lieu le 19 Janvier en Français. Les inscriptions sont ici 

    lundi 10 janvier 2011

    Commencement

    Parce qu'il faut bien commencer quelque part...

    Depuis que j'ai commencé à travailler dans le domaine de la BI open source (presque 3 ans), j'ai constaté la rapidité avec laquelle les solutions BI open source ont évolué. Nous sommes passés en 3 ans de solutions menées par des communautés à de véritables éditeurs de solutions complètes et très riches en fonctionnalités.

    Parallèlement, un véritable business modèle open source a émergé au fil des années avec ses avantages et inconvénients. 

    On a vu émerger des solutions open source crédibles, complètes et rentables grâce aux éditeurs open source et leurs communautés.

    On a aujourd'hui des éditeurs open source bien identifiés avec souvent un modèle économique à deux étages: une version open source qui sert souvent de démo ou d'accroche marketing et une version payante soumise à paiement pour profiter de fonctionnalités supplémentaires.

    Aujourd'hui les fonctionnalités de base sont bien installées: base de données, ETL, reporting, OLAP sont des fonctionnalités bien établis. Les principales défis de la BI open source aujourd'hui sont au niveau de l'expérience utilisateur et dans la prise en compte des utilisateurs non techniques.

    Ce blog a pour objectif de donner toutes les visions possibles de la BI open source et de ses domaines connexes, de surveiller et analyser les nouveautés des solutions, de donner des bonnes pratiques et des cas d'utilisations précis. L'envie principale est de partager mon expérience et mon enthousiasme pour l'open source et la BI en particulier et d'aider ceux qui auraient envie de s'y intéresser.

    Bonne lecture...