Management Et Tolérance Aux Pannes Des Services Sur Grilles Informatiques Pour L'intégration D'applications

Li Yu
2008-01-01
Abstract:Depuis les annees 90, le terme « grille de calcul » a ete propose pour definir une infrastructure de calcul distribuee, qu'il s'agisse de ressources partagees a grande echelle, d'applications optimisees, ou de calcul a haute performance. Actuellement, la technologie des grilles de calcul evolue vers la notion de services grilles, convergence entre le web service et les grilles de calcul. Dans ce contexte, une architecture orientee services (OGSA : Open Grid Services Architecture) est apparue. La conception de services de grilles se definie comme une serie de standards et de specifications qui supportent la creation des services de facon transparente et de plate-formes independantes. Plusieurs travaux de recherches soutiennent la these que la structure orientee services est une solution appropriee pour realiser l'integration d'applications scientifiques sur grilles informatiques. De meme cette structure peut etre employee pour etablir un systeme robuste et reparti pour integrer des applications. Dans ce manuscript, une nouvelle approche pour l'integration d'applications scientifiques en format des services, basee sur l'encapsulation, au moyen de WS-Resources, est propose. Un allocateur centralise est developpe et un nouvel algorithme d'ordonnancement des tâches, MWL, est propose. Avec cet allocateur et ce MWL, les tâches peuvent etre ordonnees et distribuees aux ressources qui sont le moins chargees dans le systeme. Afin de maintenir l'etat d'une tâche dans une WS-Resource, de nouvelles proprietes de ce WS-Resource sont definies et sont employees pour fournir l'information necessaire pour mettre en place des algorithmes d'ordonnancement des tâches plus efficaces (par exemple MCT). Pour l'integration d'applications a grande echelle, nous proposons une structure d'ordonnancement des tâches de facon distribuee, echelonnable et robuste. Dans cette structure, une solution en deux-etapes est decrite pour resoudre le probleme de tolerance aux pannes, a savoir le niveau d'un algorithme d'ordonnancement des tâches et le niveau d'un mecanisme de detection des defaillances. L'algorithme DDFT est un algorithme d'ordonnancement des tâches robuste pour assurer la soumission et l'execution des tâches meme en cas de defaillance d'un allocateur ou lors de la communication. Une serie d'algorithmes est alors proposes pour detecter ces defaillances et reconstruire automatiquement la structure d'ordonnancement. Finalement, un simulateur base sur SimGrid est developpe. Ce simulateur peut etre utilise pour simuler des topologies differentes des systemes d'ordonnancement des tâches de maniere reparties.
What problem does this paper attempt to address?