Developpez.com

Le Club des Développeurs et IT Pro

Microsoft bat le record de tri des données

Avec une nouvelle technique qui sera implantée dans Bing

Le 2012-05-23 15:49:35, par Hinault Romaric, Responsable .NET
Microsoft vient d’établir un nouveau record de tri des données au test MinuteSort, avec un nouveau procédé baptisé Flat Datacenter Storage (FDS), permettant de trier rapidement de grandes quantités de données.

Pour rappel, le benchmark MinuteSort est un test qui mesure la quantité de données pouvant être triée en 60 secondes.

Le système développé par les chercheurs de Microsoft a permis de trier 1401 Go de données en seulement une minute, battant ainsi le record de tri de 500 Go de données dans le même temps détenu par Yahoo depuis 2009.

De plus, la technique utilisée par Microsoft nécessite moins de ressources. Le système utilise 1 033 disques et 250 machines alors que la procédure de Yahoo nécessite la présence de 5 624 disques et 1 406 machines.

La procédure de tri FDS s’inspire de Google MapReduce, tel qu’il est implémenté dans Apache Hadoop, sauf que chaque serveur négocie le cluster de tri. Les chercheurs ont également utilisé une technologie supplémentaire du nom de « full bisection bandwidth networks » pour stimuler la bande passante, permettant à chaque ordinateur d’envoyer et recevoir environ 2Go de données par seconde.

La nouvelle technique développée par Microsoft a été présentée à la conférence Association for Computing Machinery, destinée aux bases de données, cette semaine à Scottsdale, en Arizona.

FDS sera également implanté dans le moteur de recherche Bing afin d’améliorer le temps de réponses aux requêtes des utilisateurs.

Source : Microsoft Research
  Discussion forum
20 commentaires
  • Rayek
    Modérateur
    Exploser cela dépend. On parle de machine mais est ce que c'est les même que celle de yahoo de 2009, car en 3 ans les processeurs/disque dur ont grandement évoluer.

    Entre un SSD et un DD SATA il y a un monde quand même (enfin il me semble).

    Mais cela n’empêche que c'est une belle performance.
  • micka132
    Expert confirmé
    Envoyé par deathness
    Bien d'accord, en 3 ans les capacités techniques on déjà du plus que doublé.
    Peut être mais là il y a 5.6 fois moins de machine .
    Puis bon vous savez très bien que de nos jours les machines gagnent en puissance mais si on veut en profiter il faut également changé les algos ( multi core!)
  • deathness
    Membre émérite
    Envoyé par micka132
    Peut être mais là il y a 5.6 fois moins de machine .
    Puis bon vous savez très bien que de nos jours les machines gagnent en puissance mais si on veut en profiter il faut également changé les algos ( multi core!)
    Je ne dis pas que leur algo ou procédé n'est pas révolutionnaire ou non : je ne le connais pas en détail, et ne peut donc rien en dire.

    Mais sur l'aspect pur des chiffres, leur différence avec les anciens est à fortement mettre en corrélation avec l'évolution des machines et des réseaux!
    Et que donc les balancer, sans offrir de comparaison en terme de puissance et débit avec ceux de yahoo n'a pas de sens.
  • supergaou
    Candidat au Club
    Il y a pleins d'infos sur les machines, l'algo utilisé sur le site de sortbenchmark.org, ==> voir ce pdf de présentation
  • alex_vino
    Membre émérite
    Envoyé par Erza3
    En fait, comme a son habitude, Microsoft publie une idée pompée ailleurs...
    Je ne vois pas vraiment le truc révolutionnaire ici, c'est un Map/Reduce bricolé et vu les quantités de RAM sur les machines, j'imagine qu'ils traitent les données avec un hash table en cache, non ? Merci Google, Apache, NoSQL...
    Chaqu'un prend des idées aux autres, il y a quoi d'anormal.
    Si a chaque fois une évolution devrait etre une découverte le monde n'évoluerais pas vite.
    Et si tu compares a Apache et NoSQL je pense que tu devrais citer Oracle et surtout IBM en premier lieu.

    Bravo Microsoft, j'espere maintenant que d'autres entreprises vont "pomper" sur MS comme tu dis et améliorer encore et encore ces résultats.
  • MiaowZedong
    Membre extrêmement actif
    De toute façon, ils ont tous copié sur Babbage et Ada Lovelace....toutes ces sociétés "modernes" ne sont que des imitateurs
  • jmnicolas
    Membre éprouvé
    Oui il faudrait pouvoir distinguer le gain apporté par le matériel plus récent et celui apporté réellement par l'algorithme.
    Sinon ça n'a aucun sens : il leur suffit de racheter des machines plus performantes l'année prochaine et sans toucher à leur algo ils obtiendront un nouveau record.

    C'est un peu comme comparer les performances de pilotes de course, si les voitures ne sont pas identiques il est difficile de savoir qui est réellement le meilleur.
  • el_slapper
    Expert éminent sénior
    C'est vraiment un concours de celui qui a la plus grosse(machine).....
  • Même si les machines et disque ont évolués, cela reste une belle performance technique.
  • deathness
    Membre émérite
    Envoyé par Rayek
    Exploser cela dépend. On parle de machine mais est ce que c'est les même que celle de yahoo de 2009, car en 3 ans les processeurs/disque dur ont grandement évoluer.

    Entre un SSD et un DD SATA il y a un monde quand même (enfin il me semble).

    Mais cela n’empêche que c'est une belle performance.
    Bien d'accord, en 3 ans les capacités techniques on déjà du plus que doublé.