Оновлення Ray Serve LLM від Anyscale забезпечує відмовостійкість групи DP для розгортань vLLM WideEP, зменшуючи ризик простою для розподілених систем AI-інференсу. (ReadОновлення Ray Serve LLM від Anyscale забезпечує відмовостійкість групи DP для розгортань vLLM WideEP, зменшуючи ризик простою для розподілених систем AI-інференсу. (Read

Ray 2.55 додає відмовостійкість для розгортання великомасштабних AI-моделей

2026/04/03 02:35
3 хв читання
Якщо у вас є відгуки або зауваження щодо цього контенту, будь ласка, зв’яжіться з нами за адресою crypto.news@mexc.com

Ray 2.55 додає відмовостійкість для великомасштабних розгортань моделей ШІ

Joerg Hiller 18:35, 2 квітня 2026

Оновлення Ray Serve LLM від Anyscale забезпечує відмовостійкість групи DP для розгортань vLLM WideEP, зменшуючи ризик простою для розподілених систем виведення ШІ.

Ray 2.55 додає відмовостійкість для великомасштабних розгортань моделей ШІ

Anyscale випустила важливе оновлення своєї платформи Ray Serve LLM, яке вирішує критичну операційну проблему для організацій, що виконують великомасштабні робочі навантаження виведення ШІ. Ray 2.55 впроваджує відмовостійкість групи паралельних даних (DP) для розгортань vLLM Wide Expert Parallelism — функцію, яка запобігає виведенню з ладу цілих кластерів обслуговування моделей через збій одного GPU.

Оновлення спрямоване на конкретну проблемну точку в обслуговуванні моделей Mixture of Experts (MoE). На відміну від традиційних розгортань моделей, де кожна репліка працює незалежно, архітектури MoE, такі як DeepSeek-V3, розподіляють експертні шари по групах GPU, які повинні працювати спільно. Коли один GPU у цих конфігураціях виходить з ладу, вся група — потенційно від 16 до 128 GPU — стає непрацездатною.

Технічна проблема

Моделі MoE розподіляють спеціалізовані «експертні» нейронні мережі по кількох GPU. DeepSeek-V3, наприклад, містить 256 експертів на шар, але активує лише 8 на токен. Токени направляються до тих GPU, які містять потрібних експертів, через операції відправлення та об'єднання, які вимагають справності всіх учасників рангу.

Раніше збій одного рангу порушував ці колективні операції. Запити продовжували направлятися до репік, що вижили в ураженій групі, але кожен запит зазнавав невдачі. Відновлення вимагало перезапуску всієї системи.

Як Ray це вирішує

Ray Serve LLM тепер розглядає кожну групу DP як атомарну одиницю через групове планування. Коли один ранг виходить з ладу, система позначає всю групу як несправну, припиняє направлення трафіку до неї, демонтує невдалу групу та відновлює її як одиницю. Інші справні групи продовжують обслуговувати запити протягом усього процесу.

Функція активована за замовчуванням у Ray 2.55. Існуючі розгортання DP не вимагають змін коду — платформа автоматично обробляє перевірки стану на рівні групи, планування та відновлення.

Автомасштабування також враховуєці межі. Операції масштабування вгору та вниз відбуваються з кроком розміру групи, а не окремих реплік, запобігаючи створенню часткових груп, які не можуть обслуговувати трафік.

Операційні наслідки

Оновлення створює важливе проєктне міркування: ширина групи проти кількості груп. Згідно з benchmark-тестами vLLM, на які посилається Anyscale, пропускна здатність на GPU залишається відносно стабільною для паралельних розмірів експертів 32, 72 та 96. Це означає, що оператори можуть налаштовуватися на менші групи без втрати ефективності — а менші групи означають менші радіуси ураження при виникненні збоїв.

Anyscale зазначає, що ця стійкість на рівні оркестрації доповнює роботу з еластичністю на рівні двигуна, що відбувається в спільноті vLLM. vLLM Elastic Expert Parallelism RFC розглядає, як середовище виконання може динамічно налаштовувати топологію всередині групи, тоді як Ray Serve LLM керує тим, які групи існують і отримують трафік.

Для організацій, що розгортають моделі в стилі DeepSeek у великому масштабі, практична перевага проста: збої GPU стають локалізованими інцидентами, а не системними збоями. Зразки коду та кроки відтворення доступні в GitHub-репозиторії Anyscale.

Джерело зображення: Shutterstock
  • ray
  • vllm
  • ai infrastructure
  • machine learning
  • розподілені обчислення
Ринкові можливості
Логотип Raydium
Курс Raydium (RAY)
$0.6365
$0.6365$0.6365
+0.22%
USD
Графік ціни Raydium (RAY) в реальному часі
Відмова від відповідальності: статті, опубліковані на цьому сайті, взяті з відкритих джерел і надаються виключно для інформаційних цілей. Вони не обов'язково відображають погляди MEXC. Всі права залишаються за авторами оригінальних статей. Якщо ви вважаєте, що будь-який контент порушує права третіх осіб, будь ласка, зверніться за адресою crypto.news@mexc.com для його видалення. MEXC не дає жодних гарантій щодо точності, повноти або своєчасності вмісту і не несе відповідальності за будь-які дії, вчинені на основі наданої інформації. Вміст не є фінансовою, юридичною або іншою професійною порадою і не повинен розглядатися як рекомендація або схвалення з боку MEXC.

Вам також може сподобатися

Новини Aave: дослідження Банку Канади показує, що Aave V3 уникнув поганих боргів, але переніс ризик на позичальників

Новини Aave: дослідження Банку Канади показує, що Aave V3 уникнув поганих боргів, але переніс ризик на позичальників

Коротко: у дослідженні Банку Канади зазначено, що Aave V3 повідомив про нульовий рівень неповернених кредитів у 2024 році. У дослідженні зазначено, що надмірне забезпечення та ліквідації допомогли запобігти
Поділитись
Coincentral2026/04/03 23:38
Три акції робототехніки, за якими зараз стежить Волл-стріт

Три акції робототехніки, за якими зараз стежить Волл-стріт

TLDR AeroVironment швидко зростає з великим портфелем замовлень та прогнозом на весь рік завдяки попиту на оборонні дрони Rockwell Automation продемонструвала стабільне зростання продажів, маржа
Поділитись
Coincentral2026/04/03 22:02
Ортодонтична практика Souderton змінює бренд на Orthodontic Specialists, зберігаючи основну команду та послуги

Ортодонтична практика Souderton змінює бренд на Orthodontic Specialists, зберігаючи основну команду та послуги

Ортодонтичні спеціалісти в Саудертоні, Пенсільванія, проводять ребрендинг своєї перевіреної практики, пропонуючи брекети та прозорі елайнери з тією ж експертною командою з 2015 року. Дізнайтеся про персоналізовані
Поділитись
Citybuzz2026/04/03 21:50

Новини в реальному часі 24/7

Ще

30 000 $ в PRL + 15 000 USDT

30 000 $ в PRL + 15 000 USDT30 000 $ в PRL + 15 000 USDT

Депонуйте та торгуйте PRL, щоб збільшити винагороди!