Blog
Casa

Blog

"Doppia assicurazione" per i server AI: spiegazione dettagliata dell'architettura dual-link del modulo ottico

"Doppia assicurazione" per i server AI: spiegazione dettagliata dell'architettura dual-link del modulo ottico

Jul 16, 2025

Progettazione a doppio collegamento: la linfa vitale dei cluster di server AI

Il difetto fatale delle architetture single-link nei cluster GPU da mille schede: il——

Costo dell'interruzione della formazione: il guasto di un singolo switch Spine comporta ingenti perdite orarie per l'azienda

Sfide sensibili alla latenza: le operazioni AllReduce richiedono latenza di sincronizzazione del gradiente

Collo di bottiglia dell'affidabilità: la topologia ad albero tradizionale ha 7 potenziali collegamenti con un singolo punto di errore

Lezioni apprese dal sangue e dalle lacrime: un caso reale di un'azienda di intelligenza artificiale

Nel terzo trimestre del 2024, un produttore non è riuscito a implementare i doppi collegamenti, con il risultato di:

un guasto alla porta dello switch ha causato 72 minuti di interruzione dell'addestramento

Perdita indiretta: penale contrattuale per ritardata consegna del modello

La soluzione principale a questo problema è il design dual-link.

2. Analisi panoramica dell'architettura foglia-spina dorsale a doppio collegamento

Diagramma della topologia fisica (inclusa la distribuzione del modulo ottico)

Optical module to build AI server connection diagram

Descrizione dei componenti chiave:

Switch Spine: dorsale completamente interconnessa, deve supportare il modulo ottico OSFP 800G ed ECMP

Interruttore a foglia: ogni interruttore è collegato a due spine tramite doppi moduli ottici per evitare guasti a punto singolo

Connessione al server: utilizzare un cavo ottico attivo 200G (AOC) per connettersi direttamente a Leaf

III. Principio della tecnologia del core a doppio collegamento

1. Adattamento dei link omogenei ed eterogenei

I collegamenti doppi possono utilizzare "collegamenti omogenei" (due collegamenti dello stesso tipo, come entrambi InfiniBand HDR) o "collegamenti eterogenei" (come un InfiniBand per la comunicazione a bassa latenza e un Ethernet per la trasmissione di dati ad alta capacità)

2. Allocazione dinamica delle risorse di collegamento

Dynamic link resource allocation for AI computing power

Meccanismo di commutazione senza interruzioni: utilizzare la "modalità attiva/standby" o "bilanciamento del carico + regolazione dinamica":

Modalità attiva/standby: in condizioni normali, il collegamento primario trasporta il traffico principale e il collegamento standby trasmette solo pacchetti heartbeat; in caso di guasto, il collegamento standby prende in carico tutto il traffico in microsecondi per garantire che i dati non vengano persi.

Modalità di bilanciamento del carico: due collegamenti funzionano contemporaneamente e il collegamento superstite prende automaticamente in carico tutto il traffico dopo un guasto (il livello del protocollo deve supportare la ridistribuzione del traffico per evitare la congestione).

Modulo ottico FIBERTOP direttamente dalla fabbrica | Spedizione in 72 ore | Soluzioni per centri di elaborazione dati intelligenti | Personalizzabile

Proprietà intellettuale, impresa high-tech
Proprietà intellettuale, impresa high-tech
Per saperne di più

Ho bisogno di aiuto? lasciate un messaggio

lasciate un messaggio
Se sei interessato ai nostri prodotti e vuoi conoscere maggiori dettagli, lascia un messaggio qui, ti risponderemo il prima possibile.
invia

Casa

Prodotti

whatsApp

contatto