Montage d’un cluster de calcul dédié à la Bioinformatique

Montage d’un cluster de calcul dédié à la Bioinformatique

Introduction

Les nouvelles avancées technique en biologie moléculaire ont permis la production d’une quantité massive de données biologiques (puces à ADN, NGS etc…) Le traitement de ces données nécessite une puissance de calcul importante. L’utilisation d’ordinateurs de plus en plus puissants est nécessaire, les clusters de type Beowulf (architecture développé par Donald Becker à la NASA), permettent avec des ordinateurs bon marché, d’accéder à une puissance de calcul intéressante, les couts de maintenance sont réduits et ne nécessitent pas forcément d’avoir recours au constructeur, on peut se passer facilement des softs propriétaires.

Les ordinateurs sont mis en réseau, les algorithmes utilisés sont parallélisés pour profiter de la puissance de calcul, les programmes peuvent être par exemple lancés avec les outils de la librairie Openmpi. Le gain en temps est substanciel.


I Principe de l’alignement de séquence MSA, les applications.

Clustal W : Thompson, J.D., Higgins, D. G. & Gibson , T. J. (1994) “CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice” Nucleic Acids Res. 22, 4673 – 4680

L’alignement de séquences a pour but d’identifier des zones conservées entre séquences, phylogénies, identification de sites fonctionnels,identification de la ou les fonctions d’une protéine et prédiction de sa structure secondaire (voire tertiaire)[1].

L’hypothèse qui guide cette recherche de zones conservées entre séquences, c’est que des protéines comportant des fragments de séquences similaires ont de bonnes chances de posséder des propriétés physico-chimiques identiques. A partir de similarités entre des séquences inconnues et des séquences connues, on peut inférer des similarités structurelles ou fonctionnelles sur les séquences inconnues et proposer des vérifications expérimentales pour valider ces résultats.

On distingue deux types d’alignements :

   – l’alignement de paires de séquences qui peut être réalisé de façon optimale par un algorithme de
     complexité polynomiale basé sur la programmation dynamique
   – l’alignement multiple de séquences dont la réalisation optimale nécessite un temps de calcul et
     un espace de stockage exponentiels en la taille des données.

II La parallélisation, l’exemple de l’algorithme Clustalw.

Un article wikipedia : [2] “En informatique, le parallélisme consiste à implémenter des architectures d’électronique numérique permettant de traiter des informations de manière simultanée, ainsi que les algorithmes spécialisés pour celles-ci. Ces techniques ont pour but de réaliser le plus grand nombre d’opérations en un temps le plus petit possible.”wikipedia Avec la généralisation des architecture multicoeur, la technique de parallélisation va se généraliser. Pour profiter de ces nouvelles opportunités, une stratégie peut être de transformer un algorithme séquentiel classique en algorithme parallèle, avec bien sur les contraintes que cela implique.
Algorithme clustalw : PDF plutot bien fait : [3]
Algorithme clustalw-mpi (en parallèle) : Article: ClustalW-MPI: ClustalW analysis using distributed and parallel computing Kuo-Bin Li Bioinformatics Institute, 30 Medical Drive, Singapore 117609, Republic of Singapore Received on December 15, 2002; accepted on March 2, 2003

III Architecture du Beowulf

L’architecture utilisée : Deux frontales possédant une liaison internet extérieur, ces frontales sont liées à (n) noeuds de calculs via switch, dont l’os peut être mise à jour via la connection internet. L’Os est Ubuntu.

Prochaines étapes :

configuration du reseau, ip, hostname etc …

installation ssh

configuration des clés publics et privées

installation openmpi-bin

installation clustalw-mpi

Advertisements

One thought on “Montage d’un cluster de calcul dédié à la Bioinformatique

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s