Si vous cherchez à savoir pourquoi l’intelligence artificielle (IA) et la densité vont de pair, vous devez d’abord comprendre les implications d’une distance. Et pour bien comprendre ces implications, il est essentiel de se pencher sur certains éléments de contexte.

Tout d’abord, 100 mètres. C’est la distance que vous devez garder en tête.

Nous y reviendrons sous peu, mais examinons d’abord le contexte. Si vous êtes déjà familier avec l’infrastructure nécessaire pour effectuer l’apprentissage de l’IA générative, passez directement à la prochaine section de l’article.

Sinon, regardons de plus prêt à quoi ressemble l’infrastructure d’un pôle (cluster) d’IA générative.

Vous connaissez probablement les architectures cloud, où la plupart des serveurs fonctionnent à 20 % d’utilisation, exécutant des milliers de tâches asynchrones relativement petites (dans des machines virtuelles ou des conteneurs), connectées par un réseau Ethernet.

Un pôle d’apprentissage de l’IA est différent. Il exécute essentiellement un travail synchronisé réparti. Il s’agit d’une seule charge de travail mais qui requiert un travail extrêmement intense. Chaque nœud du pôle transmet de grandes quantités de données à d’autres nœuds et chaque nœud traite les données aussi rapidement que possible.

C’est la raison pour laquelle les nœuds de serveurs d’IA comprennent souvent du silicium spécialisé – DPU, IPU, GPU, TPU, etc. L’ajout de puces supplémentaires à un serveur lui permet de fonctionner plus rapidement.

L’autre élément clé de la performance des pôles est la communication entre les nœuds. En raison du besoin de vitesse et de partage de données entre nœuds à grande échelle, ces pôles sont connectés à un vaste réseau de soutien (backend). La plupart des pôles d’apprentissage de l’IA utilisent l’architecture InfiniBand pour leurs réseaux backend en raison de son débit très élevé (jusqu’à 400 Gbps) et de sa faible latence.

Pour les câbles InfiniBand en cuivre, la distance maximale est de 30 mètres. Pour les câbles en fibre optique, la distance maximale est de 100 mètres pour tous les débits de liaison. Et pour compliquer davantage les choses, dans des situations d’utilisation réelles, la distance de connexion peut être encore plus courte, surtout si l’utilisation de la fibre est prohibitive en termes de coût ou de complexité.

Si vous utilisez l’InfiniBand, la taille physique de votre pôle sera limitée par le câblage et à l’heure actuelle, il n’existe aucun moyen de contourner ce problème.

Peut-être vous demandez-vous ce que ça change en bout de ligne ? Si cela constitue un véritable problème ?

Considérons un instant la taille du pôle. GPT-3 a été entraîné sur un pôle de 285 000 cœurs de processeur et 10 000 cartes graphiques. Le pôle de GPT-4 est d’un ordre de grandeur supérieur.

Il s’agit évidemment de pôles énormes. Mais peu importe si vous concevez un pôle pour une entreprise ou une université, vous serez obligé d’entasser des centaines ou des milliers de serveurs dans un espace relativement restreint, afin de respecter les limites de longueur de connexion.

D’accord, alors vous entassez un millier de serveurs dans des racks entièrement remplis, vous les câblez ensemble et vous êtes prêt à commencer à traiter les données. C’est bien ça ?

Pas du tout.

Il existe une autre contrainte physique qui limite la proximité de ces serveurs. Il s’agit de la chaleur.

Les serveurs d’IA sont extrêmement chauds, car ils fonctionnent à 90 % d’utilisation et sont remplis de silicium spécialisé. Le dernier serveur d’IA de NVIDIA, entièrement équipé de processeurs et de GPU, peut générer plus de 10 kW de chaleur par serveur!

Donc.

Pour créer un pôle d’apprentissage de l’IA à grande échelle, il faudrait entasser des milliers de serveurs dans un espace relativement petit, alors que chaque serveur produit la chaleur de huit ou neuf radiateurs, ce qui rendrait les racks si chauds que tous les serveurs cesseraient de fonctionner.

Comment contourner cette contrainte thermique dans un environnement à densité élevé ?

C’est une excellente question, car la plupart des centres de données n’arrivent pas à supporter une telle chaleur dans le cadre d’un déploiement à haute densité. Selon le plus récent sondage de l’Institut Uptime, la plupart des densités de racks sont inférieures à 6 kW par rack. Ce qui équivaut à moins qu’un serveur NVIDIA AI par rack. Ce n’est pas sans raison de Meta a pris la décision d’interrompre la construction de ses centres de données, après avoir réalisé la quantité massive d’IA dont elle allait avoir besoin pour mener à bien ces projets. L’entreprise a en effet reconnu la nécessité de repenser complètement ses centres de données afin de faire face à la chaleur et à la densité de l’infrastructure d’IA.

Alors comment Meta soutient-elle l’IA ? Avec le refroidissement par immersion, qui semble être la clé.

En effet, le refroidissement par immersion offre des densités beaucoup plus élevées. Par exemple, l’entreprise espagnole Submer, spécialiste des infrastructures en immersion pour centres de donnée et l’un des partenaires d’Hypertec, offre des solutions capables de soutenir jusqu’à 100 kW de chaleur de serveur par module (pod) de refroidissement. Ce qui représente un mégawatt de capacité de serveur dans dix modules. Avec ce genre de solutions, il devient alors possible de refroidir les serveurs dans le cadre d’un déploiement à haute densité.

Pratiquement toutes les entreprises cherchant à déployer l’IA à grande échelle envisagent le refroidissement par immersion, et se tournent vers des fournisseurs spécialisés comme Hypertec pour le faire.

À titre d’entreprise pionnière dans le domaine du refroidissement par immersion (Hypertec est spécialisée dans la conception et la fabrication de serveurs accélérés par GPU pour l’IA et de solutions de refroidissement par immersion), nous comprenons parfaitement le croisement de l’IA et de la densité.

Notre expertise, issue de décennies d’expérience dans la conception d’infrastructures exigeantes pour le calcul haute performance (HPC) et le trading haute fréquence, nous permet d’évaluer concrètement la manière dont votre infrastructure émergente en IA nécessitera un déploiement dense en centre de données, et de vous offrir les moyens de déployer cette infrastructure.

Pour en savoir plus sur la manière dont nos solutions de refroidissement par immersion, combinées à celles de nos partenaires, peuvent aider votre entreprise à progresser vers l’avenir de l’IA, visitez : https://hypertec.com/immersion-cooling/

This post is also available in: EN

You May Also Like