Azure Data Lake inclut toutes les fonctionnalités permettant aux développeurs, scientifiques des données et analystes de stocker les données, quelles que soient leur taille, leur forme ou leur vitesse et d’effectuer tous types de traitement et d’analyse sur les différents langages et plateformes. Il élimine la complexité liée à la réception et au stockage de l’ensemble de vos données tout en accélérant la mise en route du traitement par lots, du streaming ou des analyses interactives. Azure Data Lake fait partie de la Cortana Analytics Suite et a été créé en partie avec la Data Lake Store, un dépôt de données qui peut être utilisé pour les données de toute taille, et qui peuvent être accessibles pour leur traitement et analytics depuis des applications et des outils HDFS.
L’éditeur dans le toolkit est utilisé principalement pour l’écriture de requêtes U-SQL. U-SQL est basé sur T-SQL et utilise des types de C# par défaut. Il est possible d’utiliser U-SQL pour traiter et combiner des données de différentes sources comme Azure Data Lake Storage, Azure Blob Stirage, Azure SQL DB, Azure SQL Data Warehouse et des instances de SQL Servcer tournant dans machines virtuelles d’Azure.
Le support de U-SQL dans l’éditeur inclut un lot de fonctionnalités comme IntelliSense, la coloration syntaxique, un marqueur d’erreur, aller à la définition et la mise en forme automatique. Une autre fonctionnalité du toolkit est la possibilité de l’intégrer avec ADLA (Azure Data Lake Analytics). Ce service de travail d’analyse permet de développer et exécuter des programmes écrits en U-SQL, R, Python et .Net pour transformer et traiter plusieurs pétaoctets de données. Le service ADLA a été développé avec Apache YARN pour une mise en échelle dynamique. L’avantage de U-SQL sur ADLA est qu’il devient possible de l’utiliser en tant que service, sans aucune infrastructure à gérer.
L’étroite intégration de Data Lake avec Visual Studio, Eclipse et IntelliJ permet d’utiliser des outils familiers pour exécuter, déboguer et optimiser le code. Les visualisations des travaux U-SQL, Apache Spark, Apache Hive et Apache Storm permettent de voir la façon dont le code est exécuté à l’échelle. Il sera possible ainsi d'identifier les goulots d’étranglement en matière de performances et les optimisations de coûts, ce qui facilite la configuration des requêtes, a indiqué Microsoft.
Créez votre compte Microsoft Azure gratuit
Source : blog Microsoft
Et vous ?
Qu'en pensez-vous ?