Envoyé par Yandex Envoyé par Yandex n'a pas été piraté. Notre service de sécurité a trouvé des fragments de code d'un référentiel interne dans le domaine public, mais le contenu diffère de la version actuelle du référentiel utilisé dans les services Yandex.



Un dépôt est un outil pour stocker et travailler avec du code. Le code est utilisé de cette manière en interne par la plupart des entreprises.



Les référentiels sont nécessaires pour travailler avec du code et ne sont pas destinés au stockage des données personnelles des utilisateurs. Nous menons une enquête interne sur les raisons de la diffusion publique de fragments de code source, mais nous ne voyons aucune menace pour les données des utilisateurs ou les performances de la plateforme.

You probably heard about Yandex, it’s the 4th biggest search engine by market share worldwide. Yesterday proprietary source code of Yandex was leaked.



The most interesting part for SEO community is: the list of all 1922 ranking factors used in the search algorithm



Ne sont pas trop vieilles

Ont beaucoup de trafic organique (visiteurs uniques) et moins de trafic lié à la recherche

Ont moins de chiffres et de barres obliques dans leur URL

Ont un code optimisé plutôt qu'une hard pessimization , avec un "PR=0"

, avec un "PR=0" Sont hébergés sur des serveurs fiables

Sont des pages Wikipédia ou des liens provenant de Wikipédia

Sont hébergés ou liés à partir de pages de niveau supérieur sur un domaine

Ont des mots-clés dans leur URL (jusqu'à trois)

Un code source jonché de langage raciste

Le bon mot en informatique

Un référentiel de code source Yandex qui aurait été volé par un ancien employé de la société technologique russe a été divulgué sous forme de torrent sur un forum de piratage populaire. L'individu derrière la fuite a publié un lien magnétique qu'il prétend être des « sources Yandex git » consistant en 44,7 Go de fichiers volés à l'entreprise en juillet 2022. Ces référentiels de code contiendraient tout le code source de l'entreprise en plus des règles anti-spam.L'ingénieur logiciel Arseniy Shestakov a analysé le référentiel Yandex Git divulgué et a déclaré qu'il contient des données techniques et du code sur les produits suivants :Shestakov a également partagé une liste de répertoires des fichiers divulgués sur GitHub pour ceux qui veulent voir quel code source a été volé.« Il existe au moins quelques clés API, mais elles ne sont probablement utilisées que pour tester le déploiement », a déclaré Shestakov à propos des données divulguées.Dans un communiqué, Yandex a déclaré que ses systèmes n'avaient pas été piratés et qu'un ancien employé avait divulgué le référentiel de code source :Les dossiers datent notamment de février 2022, lorsque la Russie a lancé une invasion à grande échelle de l'Ukraine. Un ancien cadre de Yandex a déclaré que la fuite était « politique » et a noté que l'ancien employé n'avait pas essayé de vendre le code aux concurrents de Yandex. Le code anti-spam n'a pas non plus été divulgué.Bien qu'il ne soit pas clair s'il y a des implications sécuritaires ou structurelles de la révélation du code source de Yandex, la fuite de 1 922 facteurs de classement dans l'algorithme de recherche de Yandex fait certainement des vagues. Le consultant en référencement Martin MacDonald a décrit la fuite sur Twitter comme « probablement la chose la plus intéressante qui se soit produite dans le référencement depuis des années ». Dans un fil de discussion détaillant certains des facteurs les plus notables, le chercheur Alex Buraks suggère « qu'il existe également de nombreuses informations utiles pour le référencement Google ».Yandex, le quatrième moteur de recherche en volume, emploie prétendument plusieurs anciens employés de Google. Yandex suit de nombreux facteurs de classement de Google, identifiables dans son code, et concurrence fortement Google. La division russe de Google a récemment déposé son bilan après avoir perdu ses comptes bancaires et ses services de paiement. Buraks note que le premier facteur de la liste des facteurs de classement de Yandex est "PAGE_RANK", qui est apparemment lié à l'algorithme fondamental créé par les co-fondateurs de Google.Comme détaillé par Buraks (dans deux fils), le moteur de Yandex favorise les pages qui :Vous pouvez rechercher et cliquer sur tous les facteurs sur l'outil de recherche compilé de Rob Ousbey (en bas de page). Vous remarquerez peut-être que près de 1 000 des facteurs de classement ont la balise "TG_DEPRECATED" et plus de 200 sont répertoriés comme "TG_UNUSED". Parce que le code date de février 2022 et a été saisi en juillet 2022, la recherche de Yandex a certainement changé depuis. Mais la fuite fournit un aperçu rare de la façon dont les classements de recherche sont assemblés sur un site qui dessert l'un des plus grands pays du monde.Yandex a déjà vu son code de moteur de recherche disparaître en 2015, lorsqu'un ancien employé a tenté de le vendre sur le marché noir pour 28 000 $ afin de financer sa propre startup. Le chiffre étonnamment bas du code principal du produit principal de Yandex suggérait qu'il n'était pas conscient de sa valeur réelle. Cet employé a été condamné à deux ans de prison avec sursis, et le code n'a jamais été vu publiquement.La société de technologie russe Yandex a présenté des excuses après la découverte d'insultes raciales dans le code source divulgué. Plusieurs références à des insultes raciales ont été trouvées dans le code source de l'entreprise.Un chercheur a d'abord révélé l'utilisation d'une terminologie offensante dans une série de messages sur Twitter le 26 janvier, suscitant de vives critiques.Dans un communiqué, Yandex a déclaré qu'une enquête initiale a montré que le code divulgué « semble être d'anciens fragments différents de la version actuelle du référentiel de l'entreprise ». La société a ajouté que le code divulgué « n'aurait jamais affecté aucun des services de la société ».« Nous regrettons profondément que ces mots aient figuré dans nos codes internes », a déclaré Yandex. « C'est inacceptable et une violation flagrante de notre éthique d'entreprise ». « Nous menons actuellement un examen interne pour mieux comprendre comment cela s'est passé, et nous prendrons les mesures appropriées, notamment pour nous assurer que cela ne se reproduise plus ».Des insultes raciales ont été parsemées dans la base de code Git divulguée de Yandex. Ils ont été utilisés dans les noms de fonctions et de variables, les messages imprimés et d'autres endroits dans les fichiers de configuration.Les développeurs utilisent fréquemment des termes ou des noms spécifiques pour permettre aux autres développeurs de comprendre quelle fonction ou action une certaine ligne de code exécute.L'utilisation de termes faciles à lire est une approche courante qui permet de réduire le temps nécessaire aux ingénieurs pour éventuellement modifier ou mettre à jour le code.Dans ce cas, les développeurs de Yandex semblent avoir substitué un terme générique à une fonction avec un langage offensant.La raison exacte pour laquelle ces termes ont été inclus n'est pas claire. Cependant, l'utilisation d'un langage offensant dans le code est une violation à la fois des meilleures pratiques et, comme Yandex l'a souligné dans sa déclaration, de son code d'éthique.Yandex n'a pas fourni d'informations supplémentaires sur la raison pour laquelle le « mot en N » a été utilisé dans ce cas, mais des observateurs ont remarqué qu'il semblait également avoir été utilisé pour remplacer les « travailleurs » dans diverses parties de sa base de code.Si Yandex a reconnu l'emploi d'un langage offensant dans son code, cela rappelle le combat qui se menait en ligne pour modifier un certain nombre de mots utilisés de façon récurrente en informatique. Pris dans le contexte, le langage n'était généralement pas considéré comme offensant, ce qui lui a d'ailleurs permis d'être présent pendant si longtemps. Cependant, suite à la mort tragique de Georges Floyd en 2020, l'onde de choc appelant à des réformes a atteint le domaine de l'informatique.Par exemple, l'agence de cybersécurité britannique a estimé que les expressions « liste blanche » et « liste noire » véhiculent des stéréotypes raciaux et a décidé de les bannir et d'en adopter d'autres plus inclusives :« Il est assez courant de dire liste blanche et liste noire pour décrire les choses souhaitables et indésirables en matière de cybersécurité », explique le National Cyber Security Centre (NCSC). « Cependant, il y a un problème avec la terminologie. Cela n'a de sens que si vous assimilez le blanc à "bon, autorisé, sûr" et le noir à "mauvais, dangereux, interdit". Cela pose des problèmes évidents. Ainsi, au nom de la lutte contre le racisme dans le domaine de la cybersécurité, nous éviterons à l'avenir cette formulation péjorative et désinvolte sur notre site web. Non, ce n'est pas le plus grand problème au monde ; mais pour emprunter à un slogan venu d'ailleurs : chaque petit geste compte.Vous ne voyez peut-être pas en quoi cela est important. Si vous n'êtes pas affecté par les stéréotypes raciaux, alors estimez vous chanceux. Pour certains de vos collègues (et futurs collègues potentiels) par contre, c'est vraiment un changement qui vaut la peine », ajoute-t-il. À la place, le NCSC utilise les expressions « liste d'autorisation » et « liste de refus », plus claires, moins ambiguës et surtout plus inclusives.Comme autre exemple d'illustration de ce combat, nous pouvons citer Python qui a décidé de supprimer les termes "master/slave" de sa documentation et sa base de code en 2018. Le projet Python n'est pas le seul à avoir pris cette direction dans le monde informatique. Il ne fait que rejoindre des projets comme Django (2014), CouchDB (2014), Drupal (2014) et Redis (2017). Tous avaient le même argument : bien que ces termes aient été utilisés depuis des décennies, ils peuvent avoir des significations à caractère raciste, entre autres, pour les utilisateurs. Il serait donc bon de les éviter.« Le mot "slave" a des connotations négatives (bien que cela puisse ou non être pertinent dans la dénomination d'un terme technique), y compris l'histoire de l'esclavage sur plusieurs siècles au bénéfice des puissances coloniales européennes, les travailleurs pénitentiaires aujourd'hui forcés de travailler dans des conditions parfois similaires à l'esclavage, les jeunes filles vendues dans l'esclavage sexuel dans de nombreuses régions du monde aujourd'hui », expliquait le projet Drupal. La connotation sexiste de ces termes avait particulièrement été citée lorsque la question était débattue pour le projet Django. Une ingénieure DevOps s'était en effet plainte que ses collègues lui faisaient souvent des blagues en utilisant les termes "master" et "slave".GitHub a décidé de faire usage du terme « main » en lieu et place de « master » pour désigner la branche par défaut des projetsEn juillet 2020, Linus Torvalds a procédé à l’intégration d’un guide terminologique à l’arborescence du projet Linux. Le document dénommé "Linux kernel inclusive technology" liste des termes comme master, slave, blacklist et whitelist comme étant à éviter dans le futur par la chaîne des contributeurs au noyau. Les modifications du code existant sont également dans le viseur, mais des exceptions sont prévues pour ce qui est de la maintenance d'une API d'espace utilisateur ou lors de la mise à jour d'un code pour une spécification qui rend ces termes obligatoires.Cette inclusion fait suite à la proposition formulée par l'ingénieur principal d'Intel – Dan Williams. Elle bénéficiait déjà du soutien d’autres mainteneurs Linux dont Chris Mason et Greg Kroah-Hartman.« La traite des esclaves africains était un système brutal de misère humaine déployé à l'échelle mondiale. Les décisions relatives au choix des mots dans un projet de logiciel moderne ne sauraient effacer ce malheureux héritage, mais peuvent aller dans le sens de maximiser la disponibilité et l'efficacité de la communauté mondiale des développeurs pour participer au processus de développement du noyau Linux », avait déclaré Dan Williams lors de la sortie de la proposition.Sources : Breached Quelle lecture en faites-vous ?Est-il possible de s'inspirer des facteurs de classement, dépréciés ou encore valides, pour manipuler l'algorithme de classement (de Yandex et/ou de Google) et disposer d'un meilleur référencement ? Pourquoi ?Que pensez-vous de la présence du langage offensant dans le code ?De manière plus générale, qu'avez-vous pensé des différentes modifications du jargon informatique qui ont été entreprises par différents organismes/sociétés ?