Microsoft fait le point sur ses contributions dans les performances de Git en 2017
Quelle est celle qui vous intéresse le plus ?

Le , par Stéphane le calme, Chroniqueur Actualités
En février 2017, Microsoft a annoncé que son équipe de développement de Windows allait passer à l'utilisation du système de contrôle de version open source Git notamment en raison de Git Virtual File System (GVFS). Brian Harry, Vice President for Cloud Developer Services chez Microsoft, a expliqué que « GVFS, couplé à un ensemble d'améliorations à Git, permet à Git d’échelonner de TRÈS gros dépôts en virtualisant le dossier .git et le répertoire de travail. Plutôt que de télécharger l'intégralité du dépôt et de cocher tous les fichiers, il se limite à télécharger de manière dynamique les portions dont vous avez besoin en fonction de ce que vous utilisez. »

Trois mois plus tard, Microsoft a publié un billet par l’entremise de Brian Harry où l’entreprise fait le point.

Avant tout, il a rappelé que la base de code Windows comporte environ 3,5 millions de fichiers et, lorsqu'elle est enregistrée dans un compte Git, cet ensemble donne lieu à un dépôt de 300 Go. En outre, l'équipe de Windows compte environ 4000 ingénieurs et le système d'ingénierie produit 1760 « compilations de laboratoire » quotidiennes sur 440 branches en plus de milliers de compilations de validation de pull request.

Le passage à Git a été influencé par un certain nombre de choses. En 2013, la société a entrepris son projet OneCore, unifiant ses différents domaines du développement de Windows et faisant en sorte que le système d'exploitation soit une plateforme en couches plus modulaire. À l'époque, Microsoft utilisait Source Depot, une version personnalisée du système de contrôle de la version Perforce commercial, pour tous ses projets majeurs.

En novembre, Microsoft a annoncé travailler en collaboration avec GitHub pour porter son GVFS sur macOS et Linux. « Beaucoup de choses se sont passées depuis que nous avons annoncé notre intention de développer GVFS pour le dépôt Windows », s’est réjoui Brian Harry,Vice President for Cloud Developer Services chez Microsoft. Avec Git Virtual File System (GVFS), plutôt que de télécharger l'intégralité du dépôt et de cocher tous les fichiers, le système se limite à télécharger de manière dynamique les portions dont vous avez besoin en fonction de ce que vous utilisez.

Un système qui a donc intéressé plusieurs entités disposant d’énormes bases de code, mais qui était limité jusque là à Windows 10 (Anniversary Update au minimum). Cependant, Microsoft a annoncé que ce système sera bientôt disponible sur d’autres plateformes : « GitHub a annoncé qu'ils travaillaient sur l'ajout de la prise en charge de GVFS, rendant le Git évolutif disponible pour l'ensemble du monde open source. Ils vont également travailler en étroite collaboration avec nous pour améliorer encore GVFS et l'apporter aux utilisateurs Mac et Linux », a assuré Harry.

En ce début d’année, Microsoft veut faire le point sur ses contributions à Git.

« Visual Studio Team Services (VSTS) héberge le plus grand référentiel Git au monde : le code source de Windows. Garder une copie primaire du code disponible dans le cloud et la rendre performante tout en étant mis à jour par plus de 4000 utilisateurs en même temps est une réalisation monumentale, mais elle n'est utile que si les ingénieurs peuvent utiliser le client Git principal sur leurs machines. Nous avons rendu cela possible en construisant GVFS.


« Le référentiel Windows est plus important que n'importe quel autre référentiel Git par ordre de grandeur, ce qui a révélé quelques problèmes de performances dans Git principal que nous devions résoudre pour le faire fonctionner avec les grands référentiels que nous voyons chez Microsoft. Grâce au fait que Git est open source, nous avons pu l’améliorer pour tous les utilisateurs, sur toutes les plateformes en contribuant à ces modifications », a avancé Derick Stolee de Microsoft.

« En revenant sur ce que nous avons accompli en 2017, je voulais partager les détails de certains de mes patchs préférés sur lesquels nous avons travaillé avec la communauté Git au cours de l'année écoulée », a-t-il annoncé.

L’index

L’index Git est une liste de tous les fichiers du hachage actuel et de l'objet attendu basé sur la zone de transfert actuelle. De nombreuses opérations Git chargent cet index en mémoire avant d'effectuer l'action demandée. Microsoft a trouvé plusieurs façons d'accélérer les interactions d'index.

« L'index est une liste ordonnée de chemins. Sur chaque chargement d'index, Git vérifiait que la liste était toujours ordonnée. En sautant cette vérification, nous pouvons accélérer la charge d'index de 18 %. Lorsque l'index est reconstruit, les chemins sont écrits dans le bon ordre. Git vérifie les doublons sur les insertions, mais les doublons apparaissent consécutivement. En vérifiant la dernière entrée avant d'effectuer une recherche binaire, nous avons accéléré l'écriture d'index jusqu'à 20 %. Nous avons également réduit la fréquence à laquelle Git rejetait et rechargeait l'index. »

Status et Checkout

Deux des commandes Git les plus utilisées sont Status et Checkout , la première examine l'état du répertoire de travail pour voir ce qui est différent du HEAD actuel tandis que la seconde met à jour le répertoire de travail pour correspondre à un nouveau HEAD. Ces opérations sont appelées fréquemment, mais sont également très coûteuses lorsque vous travaillez sur de grands référentiels.

« De nombreux outils, tels que Visual Studio Team Explorer, utilisent status pour présenter la liste des modifications disponibles pour la validation. Beaucoup de projets ont de grands répertoires remplis d'artefacts de builds qui sont ignorés par status en raison des fichiers .gitignore. Team Explorer utilise des indicateurs spéciaux pour afficher ces fichiers ignorés, mais cette liste peut être beaucoup plus grande que les fichiers importants. Nous avons ajouté de nouveaux drapeaux à status pour rendre cet appel plus rapide et maintenant d'autres outils peuvent également utiliser ces options. Pendant que nous examinions ce code, nous avons trouvé des moyens d'améliorer les performances de l'état git – jusqu'à 50 %.

« Même avec ces accélérations, nous devons toujours parcourir le système de fichiers pour trouver l'état actuel des fichiers écrits. En fait, nous en AVIONS besoin. Nous avons ajouté un plug-in de surveillance de système de fichiers à git qui fournit à git une commande externe qui présente un instantané des changements du système de fichiers. Bien que nous nous concentrions sur l'intégration avec GVFS, cela peut aussi fonctionner avec des outils comme Watchman. »

Source : blog Microsoft

Et vous ?

Quelle est la contribution qui vous intéresse le plus ?
Quelle amélioration aimeriez-vous voir sur Git ?


Vous avez aimé cette actualité ? Alors partagez-la avec vos amis en cliquant sur les boutons ci-dessous :


 Poster une réponse

Avatar de eclesia eclesia - Rédacteur https://www.developpez.com
le 16/01/2018 à 13:28
Citation Envoyé par Stéphane le calme Voir le message

Quelle amélioration aimeriez-vous voir sur Git ?
1) des commandes humainement compréhensible.
2) une documentation pour humain

Sur les deux points Git n'a guère fait de progres en 10ans, c'est plutot même l'inverse, plus de commandes et encore plus d'arguments.
Certes il y a pleins d'outils visuels maintenant mais pour ce qui est de la ligne de commande Git est de plus en plus loin derrière Mercurial ou encore Fossil.
Avatar de transgohan transgohan - Expert éminent https://www.developpez.com
le 16/01/2018 à 13:49
Je n'osais pas le dire l'utilisant peu (on est majoritairement sous clearcase) mais puisque eclesia enfonce la porte !
Je ne fais rien en ligne de commande tellement c'est imbitable... Tout avec un GUI, et pourtant sous Clearcase c'est tout l'inverse, je fais tout en ligne de commande (tout ça pour dire que ce n'est pas par feignantise...).
Avatar de ok.Idriss ok.Idriss - Rédacteur https://www.developpez.com
le 16/01/2018 à 14:49
Perso j'adore la ligne de commande de git et la trouve beaucoup plus interractive et puissante que svn.
Par contre effectivement ça se devine pas mais c'est d'une puissance... une fois connue la syntaxe ne pose plus de problème.

Je pense rédiger une FAQ un jour sur DVP :p
Avatar de dourouc05 dourouc05 - Responsable Qt https://www.developpez.com
le 16/01/2018 à 15:18
Citation Envoyé par ok.Idriss Voir le message
une fois connue la syntaxe ne pose plus de problème.
Juste à titre d'information, ça t'a pris combien de temps pour arriver à ce niveau de maîtrise de Git ?
Avatar de ok.Idriss ok.Idriss - Rédacteur https://www.developpez.com
le 16/01/2018 à 15:35
C'est difficile à évaluer parce que t'apprends au fur et à mesure de tes besoins. Et perso j'utilises beaucoup le shell (bash) et la commande history et Ctrl+R pour retrouver les commandes, ça finit par rentrer tout seul.

Si ça peut aider, les principales que j'utilises tout les jours (avec un shell intégré à mon IDE) et que du coup je connais par coeur et que du coup j'ai écrit de tête sans vérifier les coquilles :

Code bash : Sélectionner tout
1
2
3
4
5
6
7
8
9
10
11
git clone ... # obviously :p 
git checkout -b XXXX # création d'une branche XXXX dérivée de la branche courrante 
git branch -D ZZZZ # supprimer une branche ZZZZ 
git checkout YYYY # basculer sur la branche YYYYY 
git add . ; git commit -m "My amazing feature" ;  
git pull --rebase [origine YYYY] # mettre à jour à partir du repo distant 
git merge XXXX # merger les commits de XXXX dans la branche YYYY 
git push origin YYYY # pousser la branche YYYY sur le repo distant 
git log # afficher l'historique des commits 
git cherry-pick {revision} # reporter un commit sur la branche courrante 
git revert {revision} # retour arrière

Et une qui mérite que l'on s'y attarde un peu plus : le rebase interactif :

Code bash : Sélectionner tout
git rebase -i HEAD~{nombre de revision que l'on veux modifier}

L'éditeur qui suit explique très bien ce qu'on peux faire : squash/ fixup (fusionner des commits successifs), reword (changer le message, équivaut au git commit --amend quand on vient de faire le commit), pick (concerver)

Pour le diff et l'historique je privilégie mon IDE (Intellij) parce que quand je suis sur le code, c'est plus pratique (mais sinon pas compliqué : git diff, git blame...).
Voilà pour le reste, je google quand j'ai besoin. Je vous laisses estimer le temps que ça vous prend pour maitriser tout ça mais honnêtement, ça ne casses pas trois pâtes à un canard :p
Et on peux scripter pour se faire des raccourcis

Pour en revenir à mon propos précédent : je trouve ça beaucoup plus simple que SVN pour faire des reports ou des retours arrière (grâce aux squash et aux cherry-pick entre autres qui permettent de réduire le nombre de révisions à reporter et aussi parce que contrairement à SVN une branche ou un tag != une working copy avec tout les fichiers dupliqués, juste une liste de révisions). Sans compter la puissance de l'éco-système CI qui existe autour avec gitlab/gitlab-ci, github/travis, bitbucket & cie.
Avatar de MKuser53 MKuser53 - Nouveau membre du Club https://www.developpez.com
le 16/01/2018 à 16:05
Il est possible aussi d'utiliser des alias dans le .gitconfig
Code : Sélectionner tout
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
[alias]
	ci = commit -m
	done = commit -a -m
	st = status -sb
	co = 'checkout'
	pr = pull --rebase=preserve
	lg = log --graph --pretty=tformat:'%Cred%h%Creset -%C(auto)%d%Creset %s %Cgreen(%an %ar)%Creset'
	accept-ours = "!f() { [ -z \"$@\" ] && set - '.'; git checkout --ours -- \"$@\"; git add -u -- \"$@\"; }; f"
	accept-theirs = "!f() { [ -z \"$@\" ] && set - '.'; git checkout --theirs -- \"$@\"; git add -u -- \"$@\"; }; f"
	moi = log --pretty=format:'%Cred%h%Creset -%Creset %s %Cgreen(%cD) %C(bold blue)<%an>%Creset' --since='1 week ago' --author moi
	rdiff = diff origin/master..master
	wdiff = diff --word-diff=plain
	ignored = ls-files --others -i --exclude-standard
	ol = add . --all
	win = config --global core.autocrlf true
	unix = config --global core.autocrlf input
Avatar de Shepard Shepard - Membre éprouvé https://www.developpez.com
le 16/01/2018 à 17:49
Citation Envoyé par ok.Idriss  Voir le message
C'est difficile à évaluer parce que t'apprends au fur et à mesure de tes besoins. Et perso j'utilises beaucoup le shell (bash) et la commande history et Ctrl+R pour retrouver les commandes, ça finit par rentrer tout seul.

Si ça peut aider, les principales que j'utilises tout les jours (avec un shell intégré à mon IDE) et que du coup je connais par coeur et que du coup j'ai écrit de tête sans vérifier les coquilles :

Code bash : Sélectionner tout
git add . ; git commit -m "My amazing feature"

Perso j'utilise plutôt git commit -am "My amazing feature" :-)

Ta liste correspond grosso modo à l'utilisation que je fais de git, sauf cherry-pick, que je ne connaissais pas ^^

Par contre j'ajouterai `git stash` et `git stash pop` :-)
Avatar de ok.Idriss ok.Idriss - Rédacteur https://www.developpez.com
le 16/01/2018 à 17:57
Ouais +1 pour stash, je l'utilise pas mal aussi :p

Sinon commit -am perso je l'utilises pas à cause des nouveaux fichiers :

Code : Sélectionner tout
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
$ touch yoyo 
$ git commit -am "ssss" 
Missing arguments : [file1.java file2.java ...] 
 
On branch XXXXX 
Untracked files: 
	yoyo 
 
nothing added to commit but untracked files present 
$ git add .; git commit -m "ssss" 
Missing arguments : [file1.java file2.java ...] 
 
Git add xxxxx/yoyo 
[XXXX f25c35d] ssss 
 1 file changed, 0 insertions(+), 0 deletions(-) 
 create mode 100644 yoyo
Avatar de captaindidou captaindidou - Membre confirmé https://www.developpez.com
le 16/01/2018 à 20:10
Sinon Pro Git explique toute l'utilisation courante en 50 pages.
C'est ce livre qui m'a mis le pied à l'étrier sans douleur.
Avatar de esperanto esperanto - Membre confirmé https://www.developpez.com
le 17/01/2018 à 8:25

Microsoft fait le point sur ses contributions dans les performances de Git en 2017
La bonne blague. Microsoft pourrait commencer par chercher une solution pour qu'un git rebase, qui prend quelques secondes sous Linux, ne prenne plus trois plombes quand le dépôt est sur un NTFS sous Windows.
Sérieux, quand on fait un rebase interactif sur plusieurs dizaines de commit, ça va des fois plus vite de créer une branche temporaire, faire une série de cherry-pick ou même de git-am et de finalement virer la branche originale et renommer la nouvelle! Aberrant! (je parle du temps pendant lequel la commande s'exécute, pas celui pendant lequel l'utilisateur travaille)
J'ai même des VM linux qui sont juste là pour que git soit plus rapide... que son équivalent Windows sur la machine hôte!
Contacter le responsable de la rubrique Accueil