IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Livres en anglais

6 livres et 8 critiques, dernière mise à jour le 30 décembre 2022 , note moyenne : 4.3

  1. Mining of Massive Datasets
  2. Data Algorithms with Spark - Recipes and Design Patterns for Scaling Up using PySpark
  3. Mastering Spark with R - The Complete Guide to Large-Scale Analysis and Modeling
  4. Spark - Valorisez vos données en temps réel avec Spark ML et Hadoop
  5. Analytics for the Internet of Things (IoT) - Intelligent analytics for your intelligent devices
  6. Stream Processing with Apache Flink - Fundamentals, Implementation, and Operation of Streaming Applications
couverture du livre Mining of Massive Datasets

Note 4 drapeau
Détails du livre
Sommaire
Critiques (1)
1 commentaire
 
 

Mining of Massive Datasets

de
Public visé : Débutant

Résumé de l'éditeur



The Web, social media, mobile activity, sensors, Internet commerce and so on all provide many extremely large datasets from which information can be gleaned by data mining. This book focuses on practical algorithms that have been used to solve key problems in data mining and can be used on even the largest datasets.

It begins with a discussion of the MapReduce framework and related techniques for efficient parallel programming. The tricks of locality-sensitive hashing are explained. This body of knowledge, which deserves to be more widely known, is essential when seeking similar objects in a very large collection without having to compare each pair of objects. Stream-processing algorithms for mining data that arrives too fast for exhaustive processing are also explained. The PageRank idea and related tricks for organizing the Web are covered next. Other chapters cover the problems of finding frequent itemsets and clustering, each from the point of view that the data is too large to fit in main memory. Two applications: recommendation systems and Web advertising, each vital in e-commerce, are treated in detail. Later chapters cover algorithms for analyzing social-network graphs, compressing large-scale data, and machine learning.

This third edition includes new and extended coverage on decision trees, deep learning, and mining social-network graphs. Written by leading authorities in database and Web technologies, it is essential reading for students and practitioners alike.

Édition : Cambridge - 565 pages, 3e édition, 9 janvier 2020

ISBN10 : 1108476341 - ISBN13 : 9781108476348

Commandez sur www.amazon.fr :

74.73 € TTC (prix éditeur 74.73 € TTC)
Data Mining
Map-Reduce and the New Software Stack
Finding Similar Items
Mining Data Streams
Link Analysis
Frequent Itemsets
Clustering
Advertising on the Web
Recommendation Systems
Mining Social-Network Graphs
Dimensionality Reduction
Large-Scale Machine Learning
Neural Nets and Deep Learnin
Critique du livre par la rédaction Thibaut Cuvelier le 23 décembre 2022


Pour l'analyse de grands jeux de données, ceux qui ne tiennent pas sur une seule machine, on trouve souvent des livres sur les techniques de programmation des grappes de calcul (que ce soit avec des techniques de superordinateurs comme MPI ou les plus récentes comme MapReduce ou Hadoop) ou sur les algorithmes utiles (sans réfléchir à leur implémentation à grande échelle). Cet ouvrage se situe à l'intersection des deux domaines, en présentant des méthodologies pour extraire de l'information de ces données tout en répartissant les calculs sur plusieurs machines. Il part de prérequis modestes en bases de données (pas forcément distribuées), algorithmes (sans qu'il s'agisse d'analyse de données) ou programmation.

Les auteurs commencent par présenter un environnement de programmation distribué, MapReduce. Certes, ce n'est pas le plus récent, mais il reste très utilisé en pratique et force à réfléchir à la distribution des calculs et des données sur plusieurs machines. Par la suite, les auteurs utilisent ce paradigme pour expliciter la manière d'implémenter les algorithmes qu'ils présentent (sans toutefois proposer d'exemple de code), afin de comprendre en profondeur ces techniques.

L'essentiel de l'ouvrage porte sur les algorithmes utiles pour l'analyse de données, y compris l'apprentissage automatique. En sus, deux applications très pratiques sont décortiquées : la recommandation et la publicité en ligne. Les sujets traités commencent avec les bases (comme l'évaluation de statistiques de manière efficace), mais montent rapidement en puissance (par exemple, le calcul en ligne de couplages ou le locality-sensitive hashing), en partant d'un contexte d'application.

La majorité des chapitres comporte une section sur la distribution des calculs sur une grappe en indiquant les principes à appliquer pour réaliser cette distribution de manière efficace. Les auteurs présentent aussi des approximations dans certains cas pour obtenir de meilleurs temps de calcul (au détriment de la qualité des réponses obtenues). Leur objectif est toujours de mettre en avant les principes appliqués, de telle sorte qu'on puisse les réutiliser dans d'autres contextes.

Chaque chapitre contient une série d'exercices (sans solution, mais certains ont des corrections automatiques en ligne), des notes bibliographiques, mais aussi un résumé des idées principales. L'un des plus gros regrets sur ce livre est que seuls les principes de l'apprentissage profond soient présentés, sans indiquer comment répartir les calculs.

À noter que les auteurs mettent la version PDF du livre à disposition sur le site du cours à Stanford dont l'ouvrage est issu.




 Commenter Signaler un problème

Avatar de dourouc05 dourouc05 - Responsable Qt & Livres https://www.developpez.com
l 29/12/2022 à 15:49
Mining of Massive Datasets


The Web, social media, mobile activity, sensors, Internet commerce and so on all provide many extremely large datasets from which information can be gleaned by data mining. This book focuses on practical algorithms that have been used to solve key problems in data mining and can be used on even the largest datasets.

It begins with a discussion of the MapReduce framework and related techniques for efficient parallel programming. The tricks of locality-sensitive hashing are explained. This body of knowledge, which deserves to be more widely known, is essential when seeking similar objects in a very large collection without having to compare each pair of objects. Stream-processing algorithms for mining data that arrives too fast for exhaustive processing are also explained. The PageRank idea and related tricks for organizing the Web are covered next. Other chapters cover the problems of finding frequent itemsets and clustering, each from the point of view that the data is too large to fit in main memory. Two applications: recommendation systems and Web advertising, each vital in e-commerce, are treated in detail. Later chapters cover algorithms for analyzing social-network graphs, compressing large-scale data, and machine learning.

This third edition includes new and extended coverage on decision trees, deep learning, and mining social-network graphs. Written by leading authorities in database and Web technologies, it is essential reading for students and practitioners alike.

[Lire la suite]



Avatar de dev_ggy dev_ggy - Membre éprouvé https://www.developpez.com
l 30/12/2022 à 15:12
Bonjour dourouc05,

Les entreprises françaises reviennent après avoir perdu des plumes à des pratiques plus raisonnables après l'engouement pour le Big Data.

Les seules applications massives qui ont un intérêt sont liées au Deep Learning : pour l'apprentissage du langage, de certains réseaux de convolution et pour la recommandation et le profilage des individus. Tout cela concerne très peu d'entreprises, la majorité des entreprises traitent de petits Dataset voir des moyens pour des problèmes de Machine Learning qui pour des raisons propres à ce type d'algorithmes ont besoin que de petit volume.

Le Big Data a été un mauvais choix stratégique, très couteux en terme humain et financier pour de nombreuses entreprises.

Merci de m'avoir lu,

 
couverture du livre Data Algorithms with Spark

Note 4 drapeau
Détails du livre
Sommaire
Critiques (1)
0 commentaire
 
 

Data Algorithms with Spark

Recipes and Design Patterns for Scaling Up using PySpark

de
Public visé : Débutant

Résumé de l'éditeur



Apache Spark's speed, ease of use, sophisticated analytics, and multilanguage support makes practical knowledge of this cluster-computing framework a required skill for data engineers and data scientists. With this hands-on guide, anyone looking for an introduction to Spark will learn practical algorithms and examples using PySpark.

In each chapter, author Mahmoud Parsian shows you how to solve a data problem with a set of Spark transformations and algorithms. You'll learn how to tackle problems involving ETL, design patterns, machine learning algorithms, data partitioning, and genomics analysis. Each detailed recipe includes PySpark algorithms using the PySpark driver and shell script.

With this book, you will:

Learn how to select Spark transformations for optimized solutions
Explore powerful transformations and reductions including reduceByKey(), combineByKey(), and mapPartitions()
Understand data partitioning for optimized queries
Build and apply a model using PySpark design patterns
Apply motif-finding algorithms to graph data
Analyze graph data by using the GraphFrames API
Apply PySpark algorithms to clinical and genomics data
Learn how to use and apply feature engineering in ML algorithms
Understand and use practical and pragmatic data design patterns

Édition : O'Reilly - 500 pages, 1re édition, 17 mai 2022

ISBN10 : 1492082384 - ISBN13 : 9781492082385

Commandez sur www.amazon.fr :

55.76 € TTC (prix éditeur 55.76 € TTC)
Fundamentals

Introduction to Spark and PySpark
Transformations in Action
Mapper Transformations
Reductions in Spark

Working with Data

Partitioning Data
Graph Algorithms
Interacting with External Data Sources
Ranking Algorithms

Data Design Patterns

Classic Data Design Patterns
Practical Data Design Patterns
Join Design Patterns
Feature Engineering in PySpark
Critique du livre par la rédaction Thibaut Cuvelier le 6 septembre 2022
Spark n'est pas l'outil informatique le plus facile à maîtriser, mais son utilisation est presque incontournable pour du traitement de données distribué. Autant son utilisation basique est accessible au plus grand nombre, autant l'amélioration de la performance de ses tâches de calcul est ardue. Pour faciliter cette opération, cet ouvrage propose de concevoir ses applications Spark à l'aide de motifs de conception, tout comme n'importe quelle brique logicielle, mais des motifs algorithmiques adaptés au calcul distribué (exemplifiés dans la partie 2, puis formalisés dans la partie ).

Ce livre, très orienté pratique, part de zéro, c'est-à-dire aucune connaissance de Spark. Il balaie tout le parcours des données, de l'ingestion (ETL) à l'extraction de variables ou au classement. Chaque algorithme est explicitement implémenté, le code étant disponible en ligne, régulièrement de plusieurs manières pour en améliorer la performance ou la mise à l'échelle (en présentant souvent des fonctionnalités plus avancées de Spark pour y arriver). Les motifs décrits servent à penser ses algorithmes comme Spark le requiert pour atteindre la meilleure performance possible.

Les API RDD et DataFrame de Spark sont présentées, la majorité des exemples étant rédigée des deux manières. Parmi les applications, la bio-informatique se taille une place de choix. Le code est régulièrement détaillé ligne par ligne. PageRank est aussi l'objet de plusieurs sections, tout d'abord à travers GraphFrames, puis en l'implémentant complètement par-dessus les API de bas niveau de Spark. Au fil des chapitres, l'auteur récapitule une série de fonctions sous la forme de tableaux. Certains chapitres supplémentaires sont disponibles en ligne.

On peut toutefois regretter que la profondeur des explications soit souvent limitée, que ce soit au niveau de l'exécution du code par Spark pour bien comprendre les compromis à effectuer pour améliorer la performance ou du fonctionnement d'algorithmes plus avancés comme PageRank.




 Commenter Signaler un problème

Avatar de dourouc05 dourouc05 - Responsable Qt & Livres https://www.developpez.com
l 07/09/2022 à 0:15
Data Algorithms with Spark
Recipes and Design Patterns for Scaling Up using PySpark


Apache Spark's speed, ease of use, sophisticated analytics, and multilanguage support makes practical knowledge of this cluster-computing framework a required skill for data engineers and data scientists. With this hands-on guide, anyone looking for an introduction to Spark will learn practical algorithms and examples using PySpark.

In each chapter, author Mahmoud Parsian shows you how to solve a data problem with a set of Spark transformations and algorithms. You'll learn how to tackle problems involving ETL, design patterns, machine learning algorithms, data partitioning, and genomics analysis. Each detailed recipe includes PySpark algorithms using the PySpark driver and shell script.

With this book, you will:

Learn how to select Spark transformations for optimized solutions
Explore powerful transformations and reductions including reduceByKey(), combineByKey(), and mapPartitions()
Understand data partitioning for optimized queries
Build and apply a model using PySpark design patterns
Apply motif-finding algorithms to graph data
Analyze graph data by using the GraphFrames API
Apply PySpark algorithms to clinical and genomics data
Learn how to use and apply feature engineering in ML algorithms
Understand and use practical and pragmatic data design patterns

[Lire la suite]




 
couverture du livre Mastering Spark with R

Note 5 drapeau
Détails du livre
Critiques (1)
0 commentaire
 
 

Mastering Spark with R

The Complete Guide to Large-Scale Analysis and Modeling

de
Public visé : Intermédiaire

Résumé de l'éditeur

If you’re like most R users, you have deep knowledge and love for statistics. But as your organization continues to collect huge amounts of data, adding tools such as Apache Spark makes a lot of sense. With this practical book, data scientists and professionals working with large-scale data applications will learn how to use Spark from R to tackle big data and big compute problems.

Authors Javier Luraschi, Kevin Kuo, and Edgar Ruiz show you how to use R with Spark to solve different data analysis problems. This book covers relevant data science topics, cluster computing, and issues that should interest even the most advanced users.

Analyze, explore, transform, and visualize data in Apache Spark with R
Create statistical models to extract information and predict outcomes; automate the process in production-ready workflows
Perform analysis and modeling across many machines using distributed computing techniques
Use large-scale data from multiple sources and different formats with ease from within Spark
Learn about alternative modeling frameworks for graph processing, geospatial analysis, and genomics at scale
Dive into advanced topics including custom transformations, real-time data processing, and creating custom Spark extensions

Édition : O'Reilly - 288 pages, 1re édition, 18 octobre 2019

ISBN10 : 149204637X - ISBN13 : 9781492046370

Commandez sur www.amazon.fr :

35.63 € TTC (prix éditeur 35.63 € TTC)
Critique du livre par la rédaction Michael Konan le 23 février 2021
Il y a deux manières d'utiliser Spark avec R : soit avec l'API sparkR du projet Apache Spark, soit avec le package R sparklyr de l'équipe RStudio. Ce livre utilise sparklyr qui, selon moi, est la meilleure option. sparklyr masque toute la complexité de Spark pour les utilisateurs de R. Et même si vous n'êtes pas familier avec Spark ou R, cet ouvrage peut vous aider à passer du niveau débutant à celui d'intermédiaire. Il cible un large public, des débutants aux utilisateurs avancés qui cherchent à comprendre pourquoi et comment utiliser Spark depuis R.

Les deux premiers chapitres donnent une introduction rapide aux outils dont vous avez besoin pour faire de la data science à grande échelle avec Spark et R. Dans les trois chapitres suivants, vous apprendrez comment préparer, analyser et modéliser des données, mais aussi comment automatiser l'ensemble du processus pour le déploiement en production.

Jusque-là, tous les calculs se font en mode local sur votre machine ou dans votre navigateur Web si vous préférez utiliser l'édition communautaire de Databricks par exemple. Mais le cluster computing est également traité. Dans les chapitres suivants, les auteurs montrent des techniques pour exécuter Spark sur plusieurs noeuds pour l'analyse et la modélisation des données à grande échelle. Des sujets avancés tels que l'analyse de graphes, de flux de données, l'analyse géospatiale et l'apprentissage profond sont également abordés. À la fin du bouquin, vous aurez appris un large éventail d'outils et concepts du monde du big data.

Au moment de faire cette critique, c'est LE livre pour maîtriser le Big Data avec Spark et R, les ressources sur le sujet étant tellement rares.




 Commenter Signaler un problème

Avatar de Michael Guilloux Michael Guilloux - Chroniqueur Actualités https://www.developpez.com
l 22/02/2021 à 22:42
Mastering Spark with R
The Complete Guide to Large-Scale Analysis and Modeling
If you’re like most R users, you have deep knowledge and love for statistics. But as your organization continues to collect huge amounts of data, adding tools such as Apache Spark makes a lot of sense. With this practical book, data scientists and professionals working with large-scale data applications will learn how to use Spark from R to tackle big data and big compute problems.

Authors Javier Luraschi, Kevin Kuo, and Edgar Ruiz show you how to use R with Spark to solve different data analysis problems. This book covers relevant data science topics, cluster computing, and issues that should interest even the most advanced users.

Analyze, explore, transform, and visualize data in Apache Spark with R
Create statistical models to extract information and predict outcomes; automate the process in production-ready workflows
Perform analysis and modeling across many machines using distributed computing techniques
Use large-scale data from multiple sources and different formats with ease from within Spark
Learn about alternative modeling frameworks for graph processing, geospatial analysis, and genomics at scale
Dive into advanced topics including custom transformations, real-time data processing, and creating custom Spark extensions

[Lire la suite]




 
couverture du livre Spark

Note 4.5 drapeau
Détails du livre
Sommaire
Critiques (3)
0 commentaire
 
 

Spark

Valorisez vos données en temps réel avec Spark ML et Hadoop

de
Public visé : Débutant

Résumé de l'éditeur

Depuis 2015, Spark s’impose comme le standard de-facto pour le big data : en apportant simplicité d’usage, puissance de calcul, analyses en temps réel, algorithmes de machine learning et deep learning, le tout accessible en Python. Spark est devenu la porte d’entrée incontournable des projets de valorisation de données.

Alors que vient de sortir Spark 3, les environnements simplifiés « clicks boutons » sont légion. Mais pour les utiliser à bon escient, il vous faudra comprendre le fonctionnement interne de Spark afin de paramétrer correctement votre cluster et vos applications.
C’est ce que propose ce livre : vous emmener dans une compréhension fine des tenants et aboutissants de Spark, depuis son installation et sa configuration jusqu’à l’écriture et l’exécution d’applications.

L’analyse des données n’est utile que dans des cas business précis. C’est pourquoi nous insistons sur une méthode d’analyse des données qui vous permettra de connaître les étapes d’un projet de machine learning, et les questions indispensables à se poser pour réussir une analyse pertinente. Nous l’illustrons via un exemple complet d’une entreprise (virtuelle) de location de vélo en libre service.

Ainsi, en lisant ce livre, vous maîtriserez l’outil et la méthode adéquats pour valoriser vos données de manière éclairée, vous assurant une meilleure efficacité et rentabilité de vos projets data.

Le code du livre est disponible sur Github.

Édition : Dunod - 304 pages, 1re édition, 8 janvier 2020

ISBN10 : 2100794329 - ISBN13 : 9782100794324

Commandez sur www.amazon.fr :

29.90 € TTC (prix éditeur 29.90 € TTC)
Avant-propos
Spark et le big data
Les raisons du succès de Spark
Installation de Spark
Démarrer le cluster Spark
Présentation et installation d'HDFS
Premiers scripts avec Spark core et Spark SQL
Présentation de Spark Streaming
Introduction au machine learning
Étude de cas avec Spark ML
Conclusion
Critique du livre par la rédaction Thibaut Cuvelier le 26 janvier 2020
Avec la mode du big data, quelques mots clés reviennent régulièrement, à l'instar de Spark. Ceux qui les profèrent ne savent pas toujours ce qui se cache derrière : peu importe le niveau de technicité de ces trublions, ce livre leur donnera les bases de Spark. C'est là l'un de ses atouts : l'ouvrage est d'abord écrit pour ceux qui veulent vraiment se mettre à utiliser Spark (déployer une grappe de serveurs, écrire une application), mais s'adresse également à ceux qui devront superviser des projets Spark « sans mettre les mains au clavier ». De fait, les prérequis sont assez légers : un peu de programmation (pas forcément orientée objet), des notions de Java (puisque Spark est implémenté sur la plateforme Java), un peu de SQL (langage par excellence pour le traitement de données). On pourrait regretter le caractère concis de certains passages, qui pourraient abaisser le niveau des prérequis.

L'auteur ne cherche pas à décrire de manière exhaustive les possibilités offertes par le système, mais plutôt à inculquer une méthodologie pour faciliter la mise en œuvre d'un projet Spark. Par exemple, l'introduction à l'apprentissage automatique ne parle pas du tout des algorithmes disponibles : bon nombre d'ouvrages les expliquent déjà en long et en large. Par contre, très peu parlent de la manière d'introduire de l'apprentissage dans la pratique industrielle : par exemple, comment présenter les résultats d'une manière intelligible pour un public de décideurs qui n'a presque aucune connaissance en statistiques ? Il n'empêche que certains paramètres sont plus détaillés, car ils présentent un intérêt non négligeable pour améliorer la performance d'une application, par exemple.

Spark est expliqué comme une évolution logique des plateformes de traitement des mégadonnées : l'outil n'est pas apparu par magie au milieu du désert, mais dans un contexte très spécifique avec une série d'acteurs qui cherchent à effectuer des traitements similaires à très grande échelle. Ce n'est pas pour ça que les fonctionnalités de Spark sont présentées de manière chronologique : l'auteur préfère d'abord parler des tables de données (DataFrame), bien avant des RDD. De fait, avec Spark 2, ils sont devenus un sujet plutôt avancé. Néanmoins, on peut regretter que Spark 3 ne soit abordé que dans la conclusion et la quatrième de couverture.

L'un des points importants de ce livre est toutefois la présence de deux études de cas, l'une orientée Spark Core, l'autre Spark ML. Cette dernière correspond au chapitre 9, c'est-à-dire à presque un tiers du volume de l'ouvrage ! Elles partent de données brutes sur une entreprise de location de vélos et ne s'arrêtent qu'avec des résultats propres à présenter à des décideurs : ces études de cas sont réalistes, bien que simplifiées.

La mise en page est claire, notamment avec les objectifs de chaque chapitre explicités au début de chacun d'eux. Chaque section est richement illustrée, avec des figures claires, ce qui aide à la compréhension.
Critique du livre par la rédaction Nicolas Vallée le 20 décembre 2020
Cet ouvrage est destiné à un public déjà familier avec la programmation. Des compétences en Python sont indispensables, car tout est illustré autour de PySpark. Des notions en Scala peuvent servir également, mais ne sont pas indispensables.
Un fil conducteur autour d’un suivi de trajets de cyclistes est proposé. Il a le mérite d'être clair, mais je n'ai pas trouvé qu'il approfondissait suffisamment. Mieux vaut créer son propre problème à compléter au fil des chapitres.

La partie dédiée à Spark Streaming est vraiment celle qui m'a le plus apporté. On comprend vraiment mieux comment paralléliser, via les DAG (graphes dirigés acycliques).
Seul bémol sur cette partie distribuée, tout est présenté autour d'une installation manuelle et minimaliste, alors que l'on retrouvera essentiellement des distributions clé en main. Cet aspect est toutefois évoqué dans le chapitre de conclusion.

Enfin, un dernier aspect abordé dans ce livre est l'apprentissage automatique. Ce n'est pas le point principal et il faudra avoir déjà de bonnes connaissances pour l'aborder. L'intérêt serait surtout de connecter tout cela via Spark.
Critique du livre par la rédaction Michael Konan le 12 janvier 2021
On peut scinder le livre en deux parties. Dans la première, l’auteur vous conduit de bout en bout dans la mise en place d’une infrastructure big data de base composée de HDFS, Spark et Python avec Jupyter Notebook comme interface de programmation. Le lecteur est guidé dans l’installation, la configuration, le démarrage et la découverte des interfaces web de suivi et gestion des clusters HDFS et Spark, ce qui lui permet, s’il a déjà des connaissances théoriques sur ces technologies, de mieux comprendre leur fonctionnement.

La deuxième partie est très opérationnelle avec deux études de cas. Une première axée sur Spark SQL et la préparation des données et une autre à la fin de l’ouvrage qui va jusqu’à la modélisation (machine learning) et l’intégration de Spark ML et Spark Streaming pour faire des prédictions en temps réel.

Notons qu’il est nécessaire d’être doté d’une capacité à diagnostiquer les problèmes et les corriger lors de l’installation et la configuration de Spark et HDFS pour que tout se passe correctement comme décrit dans le livre. Il en est de même lors de l’utilisation de certains bouts de code : de petites modifications ou corrections sont parfois nécessaires pour obtenir les résultats attendus. Ça reste toutefois un très bon ouvrage qui peut permettre aux débutants en big data avec des notions de programmation de se lancer rapidement dans l’analyse, la modélisation de données et la prédiction en temps réel avec Spark et Python.




 Commenter Signaler un problème

Avatar de dourouc05 dourouc05 - Responsable Qt & Livres https://www.developpez.com
l 26/01/2020 à 3:09
Depuis 2015, Spark s’impose comme le standard de-facto pour le big data : en apportant simplicité d’usage, puissance de calcul, analyses en temps réel, algorithmes de machine learning et deep learning, le tout accessible en Python. Spark est devenu la porte d’entrée incontournable des projets de valorisation de données.

Alors que vient de sortir Spark 3, les environnements simplifiés « clicks boutons » sont légion. Mais pour les utiliser à bon escient, il vous faudra comprendre le fonctionnement interne de Spark afin de paramétrer correctement votre cluster et vos applications.
C’est ce que propose ce livre : vous emmener dans une compréhension fine des tenants et aboutissants de Spark, depuis son installation et sa configuration jusqu’à l’écriture et l’exécution d’applications.

L’analyse des données n’est utile que dans des cas business précis. C’est pourquoi nous insistons sur une méthode d’analyse des données qui vous permettra de connaître les étapes d’un projet de machine learning, et les questions indispensables à se poser pour réussir une analyse pertinente. Nous l’illustrons via un exemple complet d’une entreprise (virtuelle) de location de vélo en libre service.

Ainsi, en lisant ce livre, vous maîtriserez l’outil et la méthode adéquats pour valoriser vos données de manière éclairée, vous assurant une meilleure efficacité et rentabilité de vos projets data.

Le code du livre est disponible sur Github.
Critiques

 
couverture du livre Analytics for the Internet of Things (IoT)

Note 4 drapeau
Détails du livre
Sommaire
Critiques (1)
0 commentaire
 
 

Analytics for the Internet of Things (IoT)

Intelligent analytics for your intelligent devices

de
Public visé : Intermédiaire

Résumé de l'éditeur

Break through the hype and learn how to extract actionable intelligence from the flood of IoT data

Key Features
  • Make better business decisions and acquire greater control of your IoT infrastructure
  • Learn techniques to solve unique problems associated with IoT and examine and analyze data from your IoT devices
  • Uncover the business potential generated by data from IoT devices and bring down business costs


Book Description
We start with the perplexing task of extracting value from huge amounts of barely intelligible data. The data takes a convoluted route just to be on the servers for analysis, but insights can emerge through visualization and statistical modeling techniques. You will learn to extract value from IoT big data using multiple analytic techniques.

Next we review how IoT devices generate data and how the information travels over networks. You’ll get to know strategies to collect and store the data to optimize the potential for analytics, and strategies to handle data quality concerns.

Cloud resources are a great match for IoT analytics, so Amazon Web Services, Microsoft Azure, and PTC ThingWorx are reviewed in detail next. Geospatial analytics is then introduced as a way to leverage location information. Combining IoT data with environmental data is also discussed as a way to enhance predictive capability. We’ll also review the economics of IoT analytics and you’ll discover ways to optimize business value.

By the end of the book, you’ll know how to handle scale for both data storage and analytics, how Apache Spark can be leveraged to handle scalability, and how R and Python can be used for analytic modeling.

What You Will Learn
  • Overcome the challenges IoT data brings to analytics
  • Understand the variety of transmission protocols for IoT along with their strengths and weaknesses
  • Learn how data flows from the IoT device to the final data set
  • Develop techniques to wring value from IoT data
  • Apply geospatial analytics to IoT data
  • Use machine learning as a predictive method on IoT data
  • Implement best strategies to get the most from IoT analytics
  • Master the economics of IoT analytics in order to optimize business value

Édition : Packt Publishing - 378 pages, 1re édition, 24 juillet 2017

ISBN10 : 9781787120730 - ISBN13 : 9781787120730

Commandez sur www.amazon.fr :

45.34 € TTC (prix éditeur 45.34 € TTC)
1. Defining IoT Analytics and Challenges
2. IoT Devices and Networking Protocols
3. IoT Analytics for the Cloud
4. Creating an AWS Cloud Analytics Environment
5. Collecting All That Data - Strategies and Techniques
6. Getting to Know Your Data - Exploring IoT Data
7. Decorating Your Data - Adding External Datasets to Innovate
8. Communicating with Others - Visualization and Dashboarding
9. Applying Geospatial Analytics to IoT Data
10. Data Science for IoT Analytics
11. Strategies to Organize Data for Analytics
12. The Economics of IoT Analytics
13. Bringing It All Together
Critique du livre par la rédaction Michael Konan le 16 novembre 2020
Nous vivons dans un monde de plus en plus connecté. Pour tout spécialiste des données qui souhaite donc se préparer pour saisir les opportunités dans le domaine de l'internet des objets (IoT), ce livre est un bon point de départ.

Développer dans un seul ouvrage tous les outils et technologies qui interviennent dans la mise en œuvre d'un projet IoT de bout en bout est quelque chose d'impossible. Il en faudrait au moins un pour traiter chaque aspect : types de dispositifs IoT et capteurs, protocoles de communication réseau, mise en place d'un environnement cloud pour l'IoT, big data, data science pour l'IoT, analyse de données géospatiales, etc.

Tout cela est présenté dans ce seul livre, même si de manière introductive. Autrement dit, il ne permet pas vraiment à un débutant ou un professionnel n'ayant pas d'expertise dans plusieurs de ces domaines d'être directement opérationnels dans l'IoT Analytics. Ce bouquin a toutefois un grand mérite, celui de permettre au lecteur d'avoir une idée claire des compétences et technologies qui rentrent en compte dans la mise en œuvre d'un projet IoT.

Tout au long de l'ouvrage, les différents challenges dans l'implémentation de projets IoT sont présentés. Et pour chaque défi, l'auteur montre quelles sont les technologies à utiliser et comment cela pourrait se faire. Les aspects administratifs liés aux données IoT sont également abordés : stratégies de protection et rétention des données. Il en est de même pour l'aspect économique : quelle est la valeur ajoutée de l'IoT pour l'entreprise ? Et si un projet IoT a la bénédiction des actionnaires, est-il plus économique de l'implémenter on-premise ou dans le cloud ? C'est une bonne introduction à l'analyse des données pour l'internet des objets.




 Commenter Signaler un problème

Avatar de Michael Guilloux Michael Guilloux - Chroniqueur Actualités https://www.developpez.com
l 09/11/2020 à 22:16
Analytics for the Internet of Things (IoT)
Intelligent analytics for your intelligent devices




Break through the hype and learn how to extract actionable intelligence from the flood of IoT data

Key Features
  • Make better business decisions and acquire greater control of your IoT infrastructure
  • Learn techniques to solve unique problems associated with IoT and examine and analyze data from your IoT devices
  • Uncover the business potential generated by data from IoT devices and bring down business costs


Book Description
We start with the perplexing task of extracting value from huge amounts of barely intelligible data. The data takes a convoluted route just to be on the servers for analysis, but insights can emerge through visualization and statistical modeling techniques. You will learn to extract value from IoT big data using multiple analytic techniques.

Next we review how IoT devices generate data and how the information travels over networks. You’ll get to know strategies to collect and store the data to optimize the potential for analytics, and strategies to handle data quality concerns.

Cloud resources are a great match for IoT analytics, so Amazon Web Services, Microsoft Azure, and PTC ThingWorx are reviewed in detail next. Geospatial analytics is then introduced as a way to leverage location information. Combining IoT data with environmental data is also discussed as a way to enhance predictive capability. We’ll also review the economics of IoT analytics and you’ll discover ways to optimize business value.

By the end of the book, you’ll know how to handle scale for both data storage and analytics, how Apache Spark can be leveraged to handle scalability, and how R and Python can be used for analytic modeling.

What You Will Learn
  • Overcome the challenges IoT data brings to analytics
  • Understand the variety of transmission protocols for IoT along with their strengths and weaknesses
  • Learn how data flows from the IoT device to the final data set
  • Develop techniques to wring value from IoT data
  • Apply geospatial analytics to IoT data
  • Use machine learning as a predictive method on IoT data
  • Implement best strategies to get the most from IoT analytics
  • Master the economics of IoT analytics in order to optimize business value


[Lire la suite]



 
couverture du livre Stream Processing with Apache Flink

Note 4 drapeau
Détails du livre
Sommaire
Critiques (1)
0 commentaire
 
 

Stream Processing with Apache Flink

Fundamentals, Implementation, and Operation of Streaming Applications

de
Public visé : Intermédiaire

Résumé de l'éditeur

Get started with Apache Flink, the open source framework that powers some of the world’s largest stream processing applications. With this practical book, you’ll explore the fundamental concepts of parallel stream processing and discover how this technology differs from traditional batch data processing.

Longtime Apache Flink committers Fabian Hueske and Vasia Kalavri show you how to implement scalable streaming applications with Flink’s DataStream API and continuously run and maintain these applications in operational environments. Stream processing is ideal for many use cases, including low-latency ETL, streaming analytics, and real-time dashboards as well as fraud detection, anomaly detection, and alerting. You can process continuous data of any kind, including user interactions, financial transactions, and IoT data, as soon as you generate them.

Learn concepts and challenges of distributed stateful stream processing
Explore Flink’s system architecture, including its event-time processing mode and fault-tolerance model
Understand the fundamentals and building blocks of the DataStream API, including its time-based and statefuloperators
Read data from and write data to external systems with exactly-once consistency
Deploy and configure Flink clusters
Operate continuously running streaming applications

Édition : O'Reilly - 310 pages, 1re édition, 23 avril 2019

ISBN10 : 149197429X - ISBN13 : 9781491974292

Commandez sur www.amazon.fr :

51.31 € TTC (prix éditeur 51.31 € TTC)
Introduction into Data Stream Processing
Stream Processing Fundamentals
The Architecture of Apache Flink
Setting up a development environment for Apache Flink
The DataStream API (v1.7)
Time-based and Windows Operators
Stateful Operators and Applications
Reading from and Writing to External Systems
Setting up Flink for Streaming Applications
Operating Flink and Streaming Applications
Where to Go from Here?
Critique du livre par la rédaction Thibaut Cuvelier le 9 juillet 2019
La nouvelle frontière de l'exploitation de gros jeux de données est le flux, quand de grandes quantités de données arrivent en temps réel et doivent être traitées à la même vitesse. Apache Flink est un outil moderne pour traiter ces problématiques et ce livre, écrit par deux développeurs majeurs du projet, se focalise sur la meilleure manière de développer de telles applications. Il est d'ailleurs très complet et part vraiment des bases (plus théoriques) du traitement de données en flux — certains regretteront que le code fasse son apparition aux alentours de la page 80.

Le contenu se structure de façon très progressive : les auteurs parlent d'abord des principes généraux, puis développent petit à petit et finissent dans des détails sur le fonctionnement interne de Flink (en veillant toutefois à ce que le contenu reste utile pour plusieurs versions). Ainsi, quand l'explication d'un système particulier requiert des détails d'autres sous-systèmes (comme le mécanisme de sauvegarde), ceux-ci sont d'abord esquissés, puis détaillés dans une section ou un chapitre futur : on ne se sent pas dépassé par le contenu, grâce à cette approche progressive.

À ce sujet, le livre couvre Flink 1.7, la version 1.8 étant sortie le même mois que le livre — les nouveautés de Flink 1.8 ne sont pas abordées, ni même citées, comme les évolutions du schéma d'état ou le traitement de données par lots. Chaque système est illustré par l'un ou l'autre exemple, très courts au début du livre, puis bien plus longs ; pour bien en profiter, des connaissances basiques en Scala seront nécessaires (le langage n'est pas du tout présenté). On pourra cependant regretter l'absence d'exemples complets, qui combinent toute une série de fonctionnalités, comme un cas d'utilisation.

Globalement, cet ouvrage pourra viser tant un public de débutants (rien n'est omis dans les bases) que de développeurs plus chevronnés dans le traitement de données en flux (les systèmes et choix de conception de Flink sont abordés en profondeur). Il ne se limite pas aux fonctionnalités et opérateurs de base, mais présente bien toutes les possibilités que l'on a d'adapter le fonctionnement de Flink à ses besoins.




 Commenter Signaler un problème

Avatar de dourouc05 dourouc05 - Responsable Qt & Livres https://www.developpez.com
l 11/07/2019 à 3:34
Stream Processing with Apache Flink
Fundamentals, Implementation, and Operation of Streaming Applications


Get started with Apache Flink, the open source framework that powers some of the world’s largest stream processing applications. With this practical book, you’ll explore the fundamental concepts of parallel stream processing and discover how this technology differs from traditional batch data processing.

Longtime Apache Flink committers Fabian Hueske and Vasia Kalavri show you how to implement scalable streaming applications with Flink’s DataStream API and continuously run and maintain these applications in operational environments. Stream processing is ideal for many use cases, including low-latency ETL, streaming analytics, and real-time dashboards as well as fraud detection, anomaly detection, and alerting. You can process continuous data of any kind, including user interactions, financial transactions, and IoT data, as soon as you generate them.

Learn concepts and challenges of distributed stateful stream processing
Explore Flink’s system architecture, including its event-time processing mode and fault-tolerance model
Understand the fundamentals and building blocks of the DataStream API, including its time-based and statefuloperators
Read data from and write data to external systems with exactly-once consistency
Deploy and configure Flink clusters
Operate continuously running streaming applications

[Lire la suite]