Progettazione a doppio collegamento: la linfa vitale dei cluster di server AI
Il difetto fatale delle architetture single-link nei cluster GPU da mille schede: il——
Costo dell'interruzione della formazione: il guasto di un singolo switch Spine comporta ingenti perdite orarie per l'azienda
Sfide sensibili alla latenza: le operazioni AllReduce richiedono latenza di sincronizzazione del gradiente
Collo di bottiglia dell'affidabilità: la topologia ad albero tradizionale ha 7 potenziali collegamenti con un singolo punto di errore
Lezioni apprese dal sangue e dalle lacrime: un caso reale di un'azienda di intelligenza artificiale
Nel terzo trimestre del 2024, un produttore non è riuscito a implementare i doppi collegamenti, con il risultato di:
un guasto alla porta dello switch ha causato 72 minuti di interruzione dell'addestramento
Perdita indiretta: penale contrattuale per ritardata consegna del modello
La soluzione principale a questo problema è il design dual-link.
2. Analisi panoramica dell'architettura foglia-spina dorsale a doppio collegamento
Diagramma della topologia fisica (inclusa la distribuzione del modulo ottico)
Descrizione dei componenti chiave:
Switch Spine: dorsale completamente interconnessa, deve supportare il modulo ottico OSFP 800G ed ECMP
Interruttore a foglia: ogni interruttore è collegato a due spine tramite doppi moduli ottici per evitare guasti a punto singolo
Connessione al server: utilizzare un cavo ottico attivo 200G (AOC) per connettersi direttamente a Leaf
III. Principio della tecnologia del core a doppio collegamento
1. Adattamento dei link omogenei ed eterogenei
I collegamenti doppi possono utilizzare "collegamenti omogenei" (due collegamenti dello stesso tipo, come entrambi InfiniBand HDR) o "collegamenti eterogenei" (come un InfiniBand per la comunicazione a bassa latenza e un Ethernet per la trasmissione di dati ad alta capacità)
2. Allocazione dinamica delle risorse di collegamento

Meccanismo di commutazione senza interruzioni: utilizzare la "modalità attiva/standby" o "bilanciamento del carico + regolazione dinamica":
Modalità attiva/standby: in condizioni normali, il collegamento primario trasporta il traffico principale e il collegamento standby trasmette solo pacchetti heartbeat; in caso di guasto, il collegamento standby prende in carico tutto il traffico in microsecondi per garantire che i dati non vengano persi.
Modalità di bilanciamento del carico: due collegamenti funzionano contemporaneamente e il collegamento superstite prende automaticamente in carico tutto il traffico dopo un guasto (il livello del protocollo deve supportare la ridistribuzione del traffico per evitare la congestione).
Modulo ottico FIBERTOP direttamente dalla fabbrica | Spedizione in 72 ore | Soluzioni per centri di elaborazione dati intelligenti | Personalizzabile