Gestion Multisite De Workflows Scientifiques Dans Le Cloud

Liu Ji
2016-01-01
Abstract:Les in silico experimentations scientifiques a grande echelle contiennent generalement plusieurs activites de calcule pour traiter big data. Workflows scientifiques (SWfs) permettent aux scientifiques de modeliser les activites de traitement de donnees. Puisque les SWfs moulinent grandes quantites de donnees, les SWfs orientes donnees deviennent un probleme important. Dans un SWf oriente donnee, les activites sont liees par des dependances de donnees ou de controle et une activite correspond a plusieurs tâches pour traiter les differentes parties de donnees. Afin d’executer automatiquement les SWfs orientes donnees, Systeme de management pour workflows scientifiques (SWfMSs) peut etre utilise en exploitant High Perfmance Comuting (HPC) fournisse par un cluster, grille ou cloud. En outre, SWfMSs generent des donnees de provenance pour tracer l’execution des SWfs.Puisque le cloud fournit des services stables, diverses ressources, la capacite de calcul et de stockage virtuellement infinie, il devient une infrastructure interessante pour l’execution de SWf. Le cloud donnees essentiellement trois types de services, i.e. Infrastructure en tant que Service (IaaS), Plateforme en tant que Service (PaaS) et Logiciel en tant que Service (SaaS). SWfMSs peuvent etre deployes dans le cloud en utilisant des Machines Virtuelles (VMs) pour executer les SWfs orientes donnees. Avec la methode de pay-as-you-go, les utilisateurs de cloud n’ont pas besoin d’acheter des machines physiques et la maintenance des machines sont assuree par les fournisseurs de cloud. Actuellement, le cloud generalement se compose de plusieurs sites (ou centres de donnees), chacun avec ses propres ressources et donnees. Du fait qu’un SWf oriente donnee peut-etre traite les donnees distribuees dans differents sites, l’execution de SWf oriente donnee doit etre adaptee aux multisite cloud en utilisant des ressources de calcul et de stockage distribuees.Dans cette these, nous etudions les methodes pour executer SWfs orientes donnees dans un environnement de multisite cloud. Certains SWfMSs existent deja alors que la plupart d’entre eux sont concus pour des grappes d’ordinateurs, grille ou cloud d’un site. En outre, les approches existantes sont limitees aux ressources de calcul statique ou a l’execution d’un seul site. Nous vous proposons des algorithmes pour partitionner SWfs et d’un algorithme d’ordonnancement des tâches pour l’execution des SWfs dans un multisite cloud. Nos algorithmes proposes peuvent reduire considerablement le temps global d’execution d’un SWf dans un multisite cloud.En particulier, nous proposons une solution generale basee sur l’ordonnancement multi-objectif afin d’executer SWfs dans un multisite cloud. La solution se compose d’un modele de cout, un algorithme de provisionnement de VMs et un algorithme d’ordonnancement des activites. L’algorithme de provisionnement de VMs est base sur notre modele de cout pour generer les plans a provisionner VMs pour executer SWfs dans un cloud d’un site. L’algorithme d’ordonnancement des activites permet l’execution de SWf avec le cout minimum, compose de temps d’execution et le cout monetaire, dans un multisite cloud. Nous avons effectue beaucoup d’experimentations et les resultats montrent que nos algorithmes peuvent reduire considerablement le cout global pour l’execution de SWf dans un multisite cloud.
What problem does this paper attempt to address?