Optymalizacja obciążeń AI na dużą skalę dzięki NVIDIA Spectr

W dzisiejszym szybko ewoluującym krajobrazie technologicznym pozostawanie o krok przed innymi nie jest tylko celem — to konieczność. Gwałtowny wzrost innowacji, szczególnie w dziedzinie AI, powoduje drastyczne zmiany w całym stosie technologicznym.

Jednym z obszarów, w którym zachodzą głębokie zmiany, jest sieć Ethernet, fundament komunikacji cyfrowej, od dziesięcioleci stanowiący fundament przedsiębiorstw i środowisk centrów danych.

Obecnie każde centrum danych przyspiesza, aby obsługiwać nowoczesne obciążenia AI, zwiększając zapotrzebowanie na infrastrukturę, która może je obsługiwać. Wiele przedsiębiorstw jest już głęboko zaznajomionych z Ethernetem, polegając na nim jako zaufanym standardzie sieciowym. Jednak brakuje im rozwiązania, aby odpowiednio obsługiwać cechy obciążeń AI przy użyciu protokołu Ethernet.

Dążenie firmy NVIDIA do wprowadzania innowacji często wynika z głębokiego zaangażowania w zrozumienie i reagowanie na zmieniające się potrzeby naszych klientów. Dzięki temu możemy zagwarantować, że nasze rozwiązania nie tylko spełnią oczekiwania, ale je przewyższą.

Wkrocz w erę NVIDIA Spectrum-X , pierwszej na świecie wydajnej sieci Ethernet zaprojektowanej wokół ulepszeń, które nie są tylko przyrostowe. Stanowią one znaczący krok naprzód, zapewniając, że Ethernet pozostanie solidną i odporną na przyszłość technologią w erze wykładniczego wzrostu danych.

Od koncepcji do zrealizowanej realizacji
Ponieważ obciążenia AI wymagają coraz większej przepustowości danych i zerowego opóźnienia, tradycyjny Ethernet musiał zostać przeprojektowany, aby spełnić rygorystyczne wymagania. Rozważania dotyczące udoskonaleń protokołu Remote Direct Memory Access (RDMA), równoważenia dużych przepływów sieciowych i lepszej metody kontroli przeciążenia muszą zostać wykorzystane, wdrożone i sprawdzone na dużą skalę.

Podczas gdy Ethernet był już używany w dużych chmurach hiperskalowych i centrach danych, w praktyce mógł obsługiwać tylko jeden serwer lub obciążenia na małą skalę. Tradycyjny Ethernet jest z natury siecią stratną, co stwarza poważne wyzwania podczas skalowania rozproszonych obciążeń obliczeniowych, takich jak AI.

Aby uporać się z tymi niedogodnościami tradycyjnego Ethernetu, zaczęliśmy opracowywać nowe techniki i możliwości, przekształcając ofertę NVIDIA Ethernet w wydajną infrastrukturę obliczeniową, zdolną sprostać rygorystycznym wymaganiom przyspieszonych obliczeń.

NVIDIA Spectrum-X stanowi znaczący postęp w stosunku do tradycyjnego Ethernetu, ponieważ została specjalnie zaprojektowana jako architektura typu end-to-end w celu optymalizacji obciążeń AI. Wykorzystuje zarówno punkty końcowe NVIDIA BlueField-3 SuperNIC , jak i przełączniki NVIDIA Spectrum-4 , i jest szczególnie ulepszona pod kątem komunikacji GPU-GPU (znanej również jako ruch sieciowy wschód-zachód) w środowisku centrum danych.

Oto co zrobiliśmy inaczej:

Kontrola przeciążeń oparta na telemetrii
Sieci bezstratne
Dynamiczne równoważenie Dane telegramu obciążenia
Kontrola przeciążeń oparta na telemetrii
Łącząc sondy telemetryczne o wysokiej częstotliwości z pomiarem przepływu, kontrola przeciążenia Spectrum-X zapewnia ochronę obciążeń, a struktura zapewnia izolację wydajności. Oznacza to, że różne typy obciążeń AI mogą być jednocześnie uruchamiane na współdzielonej infrastrukturze bez negatywnego wpływu na wydajność.

Sieci bezstratne
Spectrum-X konfiguruje sieć w celu osiągnięcia warunków bezstratnych, zapewniając, że żadne pakiety nie zostaną utracone, a opóźnienie końcowe jest zminimalizowane. Opóźnienie końcowe odnosi się do opóźnienia doświadczanego przez najwolniejsze zadanie w zestawie zadań równoległych, co ostatecznie dyktuje całkowity czas ukończenia operacji.

Dynamiczne równoważenie obciążenia
Spectrum-X wykorzystuje precyzyjne, adaptacyjne trasowanie, aby zmaksymalizować wykorzystanie struktury i zapewnić najwyższą efektywną przepustowość dla Ethernetu. Adaptacyjne trasowanie unika pułapek statycznego trasowania (equal-cost multipath, ECMP) lub trasowania flowletów występujących w tradycyjnym Ethernecie poprzez równoważenie obciążenia przepływów pakiet po pakiecie w sieci, bez potrzeby głębokich buforów i amortyzatorów.

Ponieważ równoważenie obciążenia oznacza, że pakiety mogą dotrzeć do miejsca docelowego w niewłaściwej kolejności, karta NVIDIA BlueField-3 SuperNIC dba o zmianę kolejności pakietów i umieszczenie ich w pamięci hosta, dzięki czemu zmiana kolejności jest niewidoczna dla aplikacji.

Debiut Spectrum-X z superkomputerem Izrael-1
Rozwiązanie NVIDIA Spectrum-X zadebiutowało wraz z superkomputerem Israel-1 w czerwcu 2023 r. Israel-1 prezentuje nową klasę Ethernetu, która zwiększa wydajność sieci o 1,6x, co dowodzi jego możliwości w zakresie obsługi sztucznej inteligencji na dużą skalę.

Od momentu powstania zespół NVIDIA, w tym jedni z czołowych ekspertów w dziedzinie sieci na świecie, testował i testował aplikacje przez całą dobę. Ciągle optymalizują Spectrum-X, aby uzyskać absolutnie najniższe czasy wykonania w dowolnej skali.

Ekosystem wkracza na pokład
Wzrost wydajności obserwowany w Israel-1 wzbudził wiele emocji u naszych producentów OEM i dostawców rozwiązań. Podniósł również brwi u naszych klientów korzystających z chmury na dużą skalę. Szybko skłoniło to naszych partnerów na całym świecie do współpracy z nami i zintegrowania Spectrum-X z ich rozwiązaniami centrów danych.

Zapoczątkowało to szeroką adopcję tego rozwiązania przez naszych partnerów, którzy dostrzegli korzyści płynące z zoptymalizowanej sieci Spectrum-X pod kątem obciążeń związanych ze sztuczną inteligencją, co doprowadziło do włączenia go do swojej oferty produktów.

Klienci doceniają wydajność Spectrum-X
Wcześni klienci byli przyciągani do Spectrum-X ze względu na jego zdolność do optymalizacji obciążeń AI na dużą skalę i zwiększania wydajności ich centrów danych. Współpracując ściśle z naszymi producentami OEM, kilku czołowych dostawców usług w chmurze znalazło się wśród pierwszych, którzy wdrożyli Spectrum-X, rozpoznając jego potencjał w zakresie zwiększania infrastruktury AI przy jednoczesnym znacznym obniżeniu całkowitego kosztu posiadania.

_________________
Dane telegramu