Cloud et Big Data : le futur de l'intégration passera par eux
Pour Yves de Montcheuil, Vice-Président de Talend : êtes-vous d'accord ?

Le , par Gordon Fowler, Expert Confirmé Sénior
« Aujourd’hui, la question n’est plus de savoir si une entreprise doit conserver ses applications « on premise » ou les porter vers le Cloud, mais plutôt quelles applications migrer vers le Cloud et comment gérer un environnement informatique voué à devenir de plus en plus hybride ? », c’est en ces mots que Yves de Montcheuil, Vice-Président de Talend, commence son avis d’expert qu’il vient de publier sur le Cloud et le Big Data.

Pour lui, d’ailleurs, de nombreuses entreprises ne voient plus de réelles frontières claires entre leurs serveurs virtualisés et une plate-forme de Cloud privé (« le Cloud privé étant considéré comme une extension, voire une partie intégrante, de leur infrastructure informatique »).

Mais ce flou s’adapterait mal aux problématiques d’intégration. Les solutions traditionnelles demanderaient d’importantes ressources en bande passante pour transporter les données et supporter les opérations de transformation.

« Ceci crée des contraintes importantes sur l’infrastructure globale, génère des coûts considérables et ralentit le processus d’intégration, ce qui finalement limite la capacité de l’entreprise à travailler en temps réel, écrit Yves de Montcheuil. C’est pourquoi, nous pensons que 2013 marquera l’avènement de plates-formes d’intégration conçues pour supporter et être déployées dans des environnements hybrides ».

Ce type de solutions a commencé à émerger. Mais, si elles sont efficaces pour charger dans un système de CRM des données issues de réseaux sociaux (via un minimum de transformations), elles n’offriraient pas encore les fonctionnalités « puissantes et variées » des plates-formes d’intégration traditionnelles.

« Avec le temps, ces offres vont mûrir et offriront aux entreprises une connectivité élargie aux systèmes à la fois on premise et Cloud, un éventail complet de fonctionnalités d’intégration et une flexibilité suffisante pour les déployer dans des environnements hybrides et massivement distribués ».


Yves de Montcheuil, Vice-Président de Talend

Autre prédiction du Vice-Président de Talend – qu’il n’est par ailleurs pas le seul à faire : 2013 sera également l’année de la démocratisation des Big Data.

« À peine cinq ans après la création d’Hadoop, ce projet open source a mûri à un rythme rarement égalé dans le passé. Aujourd’hui, des start-ups solides, telles Hortonworks, Cloudera ou MapR, offrent des distributions Hadoop certifiées, qui non seulement sont fiables ». Mais surtout, elles répondraient aux problématiques d’entreprise.

Fini le temps des premiers déploiements expérimentaux, « qui généralement étaient réalisés en dehors du système d’information de l’entreprise ». Aujourd’hui, voici venu le temps des solutions d’intégration de nouvelle génération qui « permettent à d’autres applications, systèmes et bases de données d’interagir avec Hadoop ».

Grâce à cette intégration, Hadoop devrait devenir cette année un composant clé du système d’information.

« Mais pas de déploiement sans retour sur investissement ! », prévient également Yves de Montcheuil. « Si les Big Data font désormais partie des préoccupations des directeurs informatiques, les bénéfices obtenus devront être quantifiés précisément ».

Selon Talend, le retour sur investissement des plates-formes de Big Data sera lié à leur capacité à décharger d’autres plates-formes de l’exécution de tâches de « routine ». Par exemple, des opérations de type ETL (Extraction, Transformation, Loading) réalisées dans le moteur Hadoop via une génération de code MapReduce ; ou l’archivage en ligne de volumes massifs de données historiques, qui nécessitent de rester accessibles et exploitables rapidement.

Enfin, les Big Data devraient également contribuer à l’évolution des systèmes de qualité de données.

« L’enjeu est clair : comment adapter nos systèmes de MDM (N.D.L.R. : Master Data Management) à la soudaine apparition de volumes de données si massifs ? Nous pensons qu’en 2013, les Big Data seront intégrées aux programmes de MDM des entreprises à mesure qu’elles prendront conscience que ce nouveau type de données est en train de s’imposer dans leur système d’information ».

Mais ces nouvelles données, issues de sources diverses, elles-mêmes nouvelles, sont généralement non-structurées. Ce qui n'est pas sans conséquence. Un point qu’explicite bien le Vice-Président : « intégrer la notion de « Big » au MDM ne signifie pas que le hub de MDM sera stocké dans Hadoop (bien que NoSQL y soit parvenu beaucoup plus rapidement qu’on le pensait), ni que sa taille va croître exponentiellement en quelques mois. Mais plutôt que les nouveaux types de données seront gérés soit dans le hub de MDM lui-même, soit reliés au hub de MDM via une approche fédérée ou simplement bénéficieront de la cohérence et des services de résolution de conflits qu’apporte le MDM ».

Et de conclure « la réussite des projets de Big Data et de Cloud des entreprises dépend largement des fonctions d’intégration qu’elles mettront en œuvre ».

Un point de vue que vous partagez ?


Vous avez aimé cette actualité ? Alors partagez-la avec vos amis en cliquant sur les boutons ci-dessous :


 Poster une réponse

Avatar de rmaker rmaker
http://www.developpez.com
Membre Expert
le 22/02/2013 13:44
Citation Envoyé par Gordon Fowler  Voir le message
Un point de vue que vous partagez ?


Sur le cloud, je n'ai rien à en dire, je ne connais pas.

Sur le big data, en revanche, je trouve que la réflexion n'a pas été assez poussée. Bien sûr que la question du volume se pose, bien sûr que l'ETL sera un des gros problèmes, mais... Mais une fois qu'on a tout persisté, que va t'on faire de tout ce volume? Requêter? Pas seulement, il faut pouvoir l'analyser, en tirer quelque chose. Je trouve dommage de ne pas avoir d'avantage mentionner l'usage des data-warehouse, voire de Mahout.
Avatar de gangsoleil gangsoleil
http://www.developpez.com
Modérateur
le 22/02/2013 15:35
Citation Envoyé par Gordon Fowler  Voir le message
Un point de vue que vous partagez ?

Dans son marche de niche, pourquoi pas. Il cite plein de jolis mots-clefs qui en jettent surement aupres des DSI, mais alors dans mon domaine, le cloud, il est tres tres loin d'arriver...

Depuis que j'ai commence a bosser, on se bat pour avoir des plateformes avec un temps d'acces correct, et meme les machines virtuelles en local passent leur temps a ramer. Alors si un DSI vient nous expliquer qu'on va bosser sur des serveurs distants, tous les developpeurs vont lui montrer que oui, mais avec une perte de productivite estimee a 50%...

Aujourd'hui, je ne connais pas une seule entreprise qui ait un lien internet suffisant vers l'exterieur, c'est a dire sur lequel les gens ne gueulent pas toute la journee (celui qui bosse tout seul a 7h du matin ne comptant pas). La encore, il y a beau avoir toute une belle infrastructure derriere, le prix d'une ligne symetrique (car c'est bien ce qu'il faut) est tellement demesure que, dans certains domaines, le cloud l'externalisation n'apporte rien d'autre que des ennuis.
Avatar de erwanlb erwanlb
http://www.developpez.com
Inactif
le 22/02/2013 15:58
Citation Envoyé par gangsoleil  Voir le message
Dans son marche de niche, pourquoi pas. Il cite plein de jolis mots-clefs qui en jettent surement aupres des DSI, mais alors dans mon domaine, le cloud, il est tres tres loin d'arriver...

Depuis que j'ai commence a bosser, on se bat pour avoir des plateformes avec un temps d'acces correct, et meme les machines virtuelles en local passent leur temps a ramer. Alors si un DSI vient nous expliquer qu'on va bosser sur des serveurs distants, tous les developpeurs vont lui montrer que oui, mais avec une perte de productivite estimee a 50%...

Aujourd'hui, je ne connais pas une seule entreprise qui ait un lien internet suffisant vers l'exterieur, c'est a dire sur lequel les gens ne gueulent pas toute la journee (celui qui bosse tout seul a 7h du matin ne comptant pas). La encore, il y a beau avoir toute une belle infrastructure derriere, le prix d'une ligne symetrique (car c'est bien ce qu'il faut) est tellement demesure que, dans certains domaines, le cloud l'externalisation n'apporte rien d'autre que des ennuis.

C'est vrai que pour matter Youtube au boulot ça ne va jamais assez vite

J'ai une connexion internet pas terrible, un projet cloud.....et pas de problèmes liés à la connexion...ce qui m'étonne parfois d'ailleurs !
Avatar de gbdivers gbdivers
http://www.developpez.com
Inactif
le 23/02/2013 16:41
Citation Envoyé par gangsoleil  Voir le message
Aujourd'hui, je ne connais pas une seule entreprise qui ait un lien internet suffisant vers l'exterieur, c'est a dire sur lequel les gens ne gueulent pas toute la journee

J'ai fait une vidéo de l'install de Qt sur Linux, téléchargement compris. 388 Mo en 1''01

On a besoin de haut débit dans la fonction public... pour youtube en autre
(beaucoup de vidéos de conférences sont sur youtube ou équivalent maintenant et c'est une source d'auto formation non négligeable)
Avatar de gangsoleil gangsoleil
http://www.developpez.com
Modérateur
le 25/02/2013 8:37
Citation Envoyé par erwanlb  Voir le message
C'est vrai que pour matter Youtube au boulot ça ne va jamais assez vite

J'ai une connexion internet pas terrible, un projet cloud.....et pas de problèmes liés à la connexion...ce qui m'étonne parfois d'ailleurs !

J'ai du travailler en SSH sur des serveurs a plus de 500Kms, bases a Paris. Outre les coupures recurrentes qui te cassent un peu tout ton boulot, le debit etait suffisamment pourri pour que la compilation soit finie largement avant l'affichage a l'ecran (deux ou trois minutes).

Mais a cote de ca, toute la bande passante etait disponible pour faire du download, donc je pouvais passer le temps.
Avatar de el_slapper el_slapper
http://www.developpez.com
Expert Confirmé Sénior
le 25/02/2013 11:12
ça dépend vraiment des boites, mais ça peut plomber la productivité. J'ai connu un projet pour lequel, à la fin, pour chasser les derniers bugs, je passais un mois complet de volumétrie dans ma moulinette.

8h00 : 9 minutes
9h00 : 18 minutes
10h00 : 1 heure
11h00 : 1 heure 45 minutes.....bon, on verra après le repas

Fatalement, les itérations de déboguage, j'en faisais plus tôt le matin. Bon, le coupable était plus le CPU du serveur central que le réseau, mais la problématique se base sur les mêmes soucis : le bon matériel, le mauvais chef en voit le cout, il n'en voit pas le gain.
Avatar de rimram31 rimram31
http://www.developpez.com
Membre confirmé
le 25/02/2013 11:40
Citation Envoyé par gangsoleil  Voir le message
J'ai du travailler en SSH sur des serveurs a plus de 500Kms, bases a Paris. Outre les coupures recurrentes qui te cassent un peu tout ton boulot...

Comme le dit el_slapper, ça dépend des boites, je n'ai personnellement jamais eu de problèmes (qui ne puissent être réglés , tu peux réserver de la bande passante a certains outils par exemple) travaillant sur des serveurs hébergés un peu partout dans le monde avec presque un simple brin symétrique a quelques mégas travaillant depuis pas mal d'années maintenant en "mode Saas". Je dirais même que j'ai eu moins de problèmes que dans un mode plus traditionnel "interne" où l'infrastructure, par souci parfois de "trop bien faire" pose tout autant de problèmes.

Après, il faut penser les choses un peu autrement, tes besoins de débit, ils se feront de "cloud a cloud", finalement, tu n'as besoin que d'un écran (j'ai par exemple effectué des tests de charge avec un simple vnc ou équivalent)

Le défaut par contre que je trouve a l'hébergement "virtualisé", au "big data", c'est de faire croire qu'on a plus de questions a se poser et on fait n'importe quoi en stockant inutilement des tonnes de données (dont on ne se pose qu'après la question du "traitement"!) tout comme on se raconte qu'il suffit de rajouter des serveurs pour résoudre tous les problèmes, le buzz du "scaling" a fait beaucoup de dégâts au sein même du développement.

Un exemple très concret que j'ai vécu, le "big data" permet de conserver tous les logs d'une application, super, on a la "solution miracle" a tous les problèmes, mais par contre personne ne s'est posé la question de la pertinence de l'information générée (par le développement) et au final tu as des tera de données qui ne servent absolument a rien si ce n'est poser de gros problèmes de hosting.
Avatar de rmaker rmaker
http://www.developpez.com
Membre Expert
le 25/02/2013 12:37
Citation Envoyé par rimram31  Voir le message
Le défaut par contre que je trouve a l'hébergement "virtualisé", au "big data", c'est de faire croire qu'on a plus de questions a se poser et on fait n'importe quoi en stockant inutilement des tonnes de données (dont on ne se pose qu'après la question du "traitement"!) tout comme on se raconte qu'il suffit de rajouter des serveurs pour résoudre tous les problèmes, le buzz du "scaling" a fait beaucoup de dégâts au sein même du développement.

Je suis tout à fait d'accord! On ne parle pas du traitement, juste de la possibilité de stocker. Et bien entendu, de payer pour stocker.

Ce qui m'amène à la question suivante: est ce que pour vous, ça implique le retour des technologies telles que le data-mining ou le data-warehouse? Histoire de synthétiser les données, d'en faire quelque chose d'utile?
Avatar de rimram31 rimram31
http://www.developpez.com
Membre confirmé
le 25/02/2013 13:43
Citation Envoyé par rmaker  Voir le message
...Ce qui m'amène à la question suivante: est ce que pour vous, ça implique le retour des technologies telles que le data-mining ou le data-warehouse? Histoire de synthétiser les données, d'en faire quelque chose d'utile?

Ben pour moi, c'est la bonne question, de quoi j'ai besoin, ensuite quelles technologies je met en oeuvre, éventuellement big data si c'est justifié. Je crains dans le "buzz" l'inverse, je me sert de la technologie et ensuite je me demande ce que je vais bien en faire et pour certains de venir expliquer que c'est top parce qu'a la mode. On parle en particulier beaucoup des ETL, pour avoir tenté a plusieurs reprises de les utiliser, je reconnais que ce sont des outils impressionnants quand on sait "ce qu'il y a derrière", mais au final, je me suis rabattu vers de simples scripts système pour faire le travail.

Quelle que soit la techno, la vraie question est quelle information je stocke, pour quel usage et comment puis je améliorer le ratio Ko/pertinence. L'avantage d'une approche de type "data mining" c'est qu'elle pose d'abord la bonne question, celle de la définition des indicateurs. Mais a relire le post initial, c'est finalement assez proche de ce qui est appelé la problématique d'intégration, en gros, du big data pourquoi pas, mais pour quoi faire?
Avatar de Ecva233 Ecva233
http://www.developpez.com
Membre actif
le 02/04/2013 16:37
Citation Envoyé par rimram31  Voir le message
Quelle que soit la techno, la vraie question est quelle information je stocke, pour quel usage et comment puis je améliorer le ratio Ko/pertinence.

C'est l'essence même de notre métier. Quelle information est il essentiel que je stocke pour assurer le Service/Business d'une entreprise (données atomique, données calculées). Quelles sont les données qui seront recaculées par les applications. De quelle manière je vais les stocker (temporaire/permanent). Sur quel support (fichier/base de données ou autre).
Bref en 23 d'info, ce sont toujours les mêmes questions récurrentes, juste la terminologie employée change.
Offres d'emploi IT
Développeur expérimenté mainframe h/f
CDI
DECISION RH - France - Dijon / Lyon / Vannes
Parue le 03/09/2014
Chef de projet réseau sécurité h/f
CDI
CTS - Limousin - Limoges (87000)
Parue le 26/08/2014
programmeur circuit intégré (assembleur)
Mission
GD-Audio - Belgique - Bruxelles
Parue le 29/08/2014

Voir plus d'offres Voir la carte des offres IT
 
 
 
 
Partenaires

PlanetHoster
Ikoula