Building a container network from scratch: namespaces, veth, bridges
и продолжение
How pods reach the internet: NAT and masquerading.
Краткая выжимка опыта автора - структурированно и без воды.
🎤 Будни сетевика 😊
и продолжение
How pods reach the internet: NAT and masquerading.
Краткая выжимка опыта автора - структурированно и без воды.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥5
Вакансия сетевой инженер в группу сопровождения офисной инфраструктуры.
Офисы: 1 в СПб и 3 в Москве. Гибрид, потому что периодически в этих офисах потребутся бывать. Перед просто поддержкой инфры, будет большой и интересный проект по миграции.
Сетевые железки: Cisco Nexus, Juniper EX, SRX, коммутаторы Dell, Wifi-контроллер + точки.
Архитектура: примерно стандартная для офисов, каналы в Интернет и между офисами, VPN, стыки с ЦОДами Okko и т.д.
На HH вакансия будет опубликована позже, кому актуально пишите в личку - @ipatov_ds
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14❤2🔥2
У всех теперь есть AI-агенты, а сетевики чем хуже?
NetClaw - A CCIE-level AI network engineering coworker.
NetClaw - A CCIE-level AI network engineering coworker.
GitHub
GitHub - automateyournetwork/netclaw: An AI agent that claws through your network
An AI agent that claws through your network. Contribute to automateyournetwork/netclaw development by creating an account on GitHub.
🔥16👍7
Ephemeral Leaks and Automated BGP Route Leak Detection
Автор объясняет феномен BGP Ephemeral Leaks (кратковременные аномалии маршрутизации) и приводит доказательство того, что большинство срабатываний автоматических систем обнаружения утечек (включая Cloudflare Radar) не говорят о реальных атаках или сбоях, а являются естественным побочным эффектом процесса схождения протокола BGP.
В качестве решения предлагается более широкая поддержка ASPA (Autonomous System Provider Authorization) и RFC 9234.
На сегодняшний день, если верить https://bgp.he.net/report/rpki_and_aspa - 1.69% автономных систем имеет ASPA-запись.
Для истории зафиксируем процент по RPKI
IPv4 58.99%
IPv6 61.87%
В ближайшем будущем планируем поучаствовать в увеличении доли IPv4🙂
🎤 Будни сетевика 😊
Автор объясняет феномен BGP Ephemeral Leaks (кратковременные аномалии маршрутизации) и приводит доказательство того, что большинство срабатываний автоматических систем обнаружения утечек (включая Cloudflare Radar) не говорят о реальных атаках или сбоях, а являются естественным побочным эффектом процесса схождения протокола BGP.
В качестве решения предлагается более широкая поддержка ASPA (Autonomous System Provider Authorization) и RFC 9234.
На сегодняшний день, если верить https://bgp.he.net/report/rpki_and_aspa - 1.69% автономных систем имеет ASPA-запись.
Для истории зафиксируем процент по RPKI
IPv4 58.99%
IPv6 61.87%
В ближайшем будущем планируем поучаствовать в увеличении доли IPv4
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥2
Коллега рассказывает, как они уже несколько лет живут в автодоме и как он устроен. Если будут вопросы, то призовем Рому в комментарии. У ребят есть свой канал.
Интересный был эксперимент - я про то, что мы его решили взять на работу 😂
До данного момента желания уволить не возникло, так что считаем эксперимент удачным.
https://youtu.be/S6xnnwEJR3s?si=08pdWOW7nmx6YV__
Интересный был эксперимент - я про то, что мы его решили взять на работу 😂
До данного момента желания уволить не возникло, так что считаем эксперимент удачным.
https://youtu.be/S6xnnwEJR3s?si=08pdWOW7nmx6YV__
YouTube
ОДИН ИЗ СПОСОБОВ ПУТЕШЕСТВОВАТЬ 24/7 | VW Crafter Campervan
🏕️ Хроники Автора 👇
📽️ Профиль в Boosty https://boosty.to/dobreebydy
💃 Соц Сети Элизы👇
📽️ Youtube 👉 @elisekrink
🌻 TikTok 👉 https://www.tiktok.com/@elise.krink
🌻 Запрещенограмм Elise.Krink
💌 Telegram канал 👉 https://tg-me.sbs/elisekrink
😎 Соц сети Ромы…
📽️ Профиль в Boosty https://boosty.to/dobreebydy
💃 Соц Сети Элизы👇
📽️ Youtube 👉 @elisekrink
🌻 TikTok 👉 https://www.tiktok.com/@elise.krink
🌻 Запрещенограмм Elise.Krink
💌 Telegram канал 👉 https://tg-me.sbs/elisekrink
😎 Соц сети Ромы…
🔥11👍3👎3👏1 1
Media is too big
VIEW IN TELEGRAM
Как сломать Juniper MX204
Инструкция простая:
1. Обновляемся до версии 24.4R2
2. Настраиваем сбор DDoS-статистики через телеметрию (пример для Telegraf)
3. А собственно и все. При опросе сенсора junos/system/linecard/ddos FPC тут же отваливается, выключаются все порты. Не верите? Видео-доказательства прилагаются.
▎Почему это происходит?
Вообще, как бы то ни было этого не должно происходить!
Но попробуем разобраться.
В одном из доков Juniper:
Отлично, но в другой доке есть доп инфа:
Значит ли это, что этот сенсор доступен только на модульных железках, а на mx204, где только buildin-MPC не доступен?
Возможно, но явного подтверждения не нашел.
В документации Junos Telemetry User Guide в явном виде пишут только про:
Про MX инфы нет…
Идем в Explore Data Model Attributes by Product, посмотрим что доступно для mx204 и mx304:
• MX304 — директория ddos-stats есть ✅
• MX204 — ddos-stats нет ни в одной версии ❌
При этом,
• На MX204 на 23 версии статистика собирается без проблем
• На MX204 на 24 версии крашится FPC
• На MX304 и на 23 и 24 версиях статистика собирается
Сравнивать напрямую MX204 и MX304 наверно неправильно, потому что это совсем разные платформы, но тем не менее.
▎Вывод
Похоже, на MX204 работа сенсора /junos/system/linecard/ddos/ не предполагалась в принципе. До 24-й версии он как-то работал «по случайности», а в 24-й что-то пошло не так, и теперь опрос выключает FPC.
Похожих багов не нашел.
В защину Juniper можно сказать, что Suggested Release для MX204 - это Junos 23.4R2-Sx, то есть формально на 24-ю лезть в принципе не стоило. Но вопросы всё равно остаются 😊
Будни сетевика
Инструкция простая:
1. Обновляемся до версии 24.4R2
2. Настраиваем сбор DDoS-статистики через телеметрию (пример для Telegraf)
# [inputs.gnmi.aliases]
# ddos-protection = "/ddos-stats"
# [[inputs.gnmi.subscription]]
# name = "ddos-protection"
# origin = "openconfig"
# path = "/junos/system/linecard/ddos/"
# subscription_mode = "sample"
# sample_interval = "10s"
3. А собственно и все. При опросе сенсора junos/system/linecard/ddos FPC тут же отваливается, выключаются все порты. Не верите? Видео-доказательства прилагаются.
▎Почему это происходит?
Вообще, как бы то ни было этого не должно происходить!
Но попробуем разобраться.
В одном из доков Juniper:
For advanced, real-time monitoring and integration with network monitoring systems, Junos provides streaming telemetry sensors. The sensor for exposing DDoS protection data is:
/junos/system/linecard/ddos
Отлично, но в другой доке есть доп инфа:
/junos/system/linecard/ddos/ This PFE sensor exports the statistics of DDOS from MPC1, MPC2,
MPC3, MPC5, MPC6, MPC7, MPC8, and MPC9 line cards.
Значит ли это, что этот сенсор доступен только на модульных железках, а на mx204, где только buildin-MPC не доступен?
Возможно, но явного подтверждения не нашел.
В документации Junos Telemetry User Guide в явном виде пишут только про:
Starting in Junos OS Release 22.1R1 EX4650, QFX5110,
QFX5120-48Y, QFX5200 and QFX5210 switches are supported.
Starting in Junos OS Evolved Release 22.3R1, PTX10001-36MR,
PTX10003, PTX10004, PTX10008, PTX10016 routers are
supported.
Про MX инфы нет…
Идем в Explore Data Model Attributes by Product, посмотрим что доступно для mx204 и mx304:
• MX304 — директория ddos-stats есть ✅
• MX204 — ddos-stats нет ни в одной версии ❌
При этом,
• На MX204 на 23 версии статистика собирается без проблем
• На MX204 на 24 версии крашится FPC
• На MX304 и на 23 и 24 версиях статистика собирается
Сравнивать напрямую MX204 и MX304 наверно неправильно, потому что это совсем разные платформы, но тем не менее.
▎Вывод
Похоже, на MX204 работа сенсора /junos/system/linecard/ddos/ не предполагалась в принципе. До 24-й версии он как-то работал «по случайности», а в 24-й что-то пошло не так, и теперь опрос выключает FPC.
Похожих багов не нашел.
В защину Juniper можно сказать, что Suggested Release для MX204 - это Junos 23.4R2-Sx, то есть формально на 24-ю лезть в принципе не стоило. Но вопросы всё равно остаются 😊
Будни сетевика
👍22🔥9🗿3❤2 1
«Универсальный солдат» в команде это хорошо или плохо?
Мне кажется не все так однозначно и да/нет тут не ответить, но почитать рассуждения коллег было интересно.
Читать в такой последовательности:
Почему “универсальный солдат” убивает команду
«Универсальный солдат»: взгляд снизу
Про "универсальных солдат" и команду.
🎤 Будни сетевика 😊
Мне кажется не все так однозначно и да/нет тут не ответить, но почитать рассуждения коллег было интересно.
Читать в такой последовательности:
Почему “универсальный солдат” убивает команду
«Универсальный солдат»: взгляд снизу
Про "универсальных солдат" и команду.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥2🤡1
Juniper MX SNMP DDoS protection configuration
В Junos OS Release 22.3R1 уменьшили значение дефолтного полисера для SNMP в 200 раз:
Намерения вроде были благие:
Мы такого поведения не замечали, видимо нам везло 🤷
После обновления закономерно можно начать ловить различные ошибки, связанные с SNMP - провалы на графиках по некоторым item и таймауты в логах системы мониторинга.
Проверяем счетчики:
Видно, что упираемся в полисер 100 pps и есть Dropped: 723.
Max arrival rate, кстати, не будет показывать значение выше установленного полисера, т.е. 100 в нашем случае.
Вернуть все взад можно командами:
Проверка
Максимальный pps, который видел у нас - Max arrival rate: 1022 pps, поэтому 20K, которые раньше были по дефолту возможно и многовато.
Да и 1022 pss так-то много для одной системы мониторинга, но в нашем случае по факту их было три - Zabbix, Observium (побаловаться) и доп внутренняя система.
P.S. Если Juniper надоел, вы скажите - напишу про … Eltex?🙂
🎤 Будни сетевика 😊
В Junos OS Release 22.3R1 уменьшили значение дефолтного полисера для SNMP в 200 раз:
Enhanced bandwidth and burst policer value (MX Series and EX9200 Series)—We've updated the default bandwidth value from 20000 to 100 pps and burst policer value from 20000 to 100 packets for SNMP traffic.
Намерения вроде были благие:
This enhancement avoids the CPU usage of eventd and snmpd reaching more than 100%. Earlier to this release, when the system receives a violated traffic for SNMP along with other protocols traffic, the CPU usage of eventd and snmpd was reaching more than 100% with an error.
Мы такого поведения не замечали, видимо нам везло 🤷
После обновления закономерно можно начать ловить различные ошибки, связанные с SNMP - провалы на графиках по некоторым item и таймауты в логах системы мониторинга.
Проверяем счетчики:
> show ddos-protection protocols snmp
Protocol Group: SNMP
Aggregate policer configuration:
Bandwidth: 100 pps
Burst: 100 packets
System-wide information:
Received: 5964285 Arrival rate: 0 pps
Dropped: 723 Max arrival rate: 100 pps
Видно, что упираемся в полисер 100 pps и есть Dropped: 723.
Max arrival rate, кстати, не будет показывать значение выше установленного полисера, т.е. 100 в нашем случае.
Вернуть все взад можно командами:
set system ddos-protection protocols snmp aggregate bandwidth 2000
set system ddos-protection protocols snmp aggregate burst 2000
Проверка
> show ddos-protection protocols snmp
* = User configured value
Protocol Group: SNMP
Aggregate policer configuration:
Bandwidth: 2000 pps*
Burst: 2000 packets*
Максимальный pps, который видел у нас - Max arrival rate: 1022 pps, поэтому 20K, которые раньше были по дефолту возможно и многовато.
Да и 1022 pss так-то много для одной системы мониторинга, но в нашем случае по факту их было три - Zabbix, Observium (побаловаться) и доп внутренняя система.
P.S. Если Juniper надоел, вы скажите - напишу про … Eltex?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19 8🔥6😁2
Кто я такой, чтобы отучившись 5 лет по специальности «Сети связи» не написать про профессиональный праздник работников отрасли связи - День радио!
В честь праздника рекомендую прочитать труд от «До нас дошло» про историю телеграфа.
https://habr.com/ru/articles/1031792/
В честь праздника рекомендую прочитать труд от «До нас дошло» про историю телеграфа.
https://habr.com/ru/articles/1031792/
Хабр
НЕкраткая история телеграфа
Всем привет! На связи Ирина Маркова и подкаст «До нас дошло» . Мы (Иннокентий Солнцев, Артем Ковальчук, Марат Сибгатулин и я) делаем небольшие подкасты про историю связи. Когда я делала цикл выпусков...
🎉34🔥8👍3
На днях попалась Рецензия на книгу «Сети Linux. Модели и приложения».
Заказал тут, за пару дней доехала до ближайшего ПВЗ, сегодня забрал.
Решил почитать какую-нибудь профессиональную литературу «держа ее в руках», как раньше, помните?
Пока не прочитал, рекомендовать не буду, но по рецензии, кмк, можно определиться.
🎤 Будни сетевика 😊
Заказал тут, за пару дней доехала до ближайшего ПВЗ, сегодня забрал.
Решил почитать какую-нибудь профессиональную литературу «держа ее в руках», как раньше, помните?
Пока не прочитал, рекомендовать не буду, но по рецензии, кмк, можно определиться.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12
Forwarded from likeabus channel
Всем привет!
У нас тут пятый митап намечается, на этот раз в Москве.
Для тех кто никогда не был, вот вам короткое саммари зачем вам туда идти:
- встретиться и пообщаться с вашими друзьями, коллегами, знакомыми, ну или найти новых);
- послушать буквально тройку технических докладов (детали ищите тут) и за пивом/пиццей/колой обсудить зачем, как и почему;
- принять участие в КВИЗе и выиграть сумасшедшие призы (они у нас за первые три места);
- забрать мерч, в этот раз помимо всякого, мы придумали для вас липучки-стяжки, собственно они на фото выше.
Регистрация: https://forms.gle/GBAyKCv5yRnHWAS48
Подписаться на канал🍻
У нас тут пятый митап намечается, на этот раз в Москве.
Для тех кто никогда не был, вот вам короткое саммари зачем вам туда идти:
- встретиться и пообщаться с вашими друзьями, коллегами, знакомыми, ну или найти новых);
- послушать буквально тройку технических докладов (детали ищите тут) и за пивом/пиццей/колой обсудить зачем, как и почему;
- принять участие в КВИЗе и выиграть сумасшедшие призы (они у нас за первые три места);
- забрать мерч, в этот раз помимо всякого, мы придумали для вас липучки-стяжки, собственно они на фото выше.
Регистрация: https://forms.gle/GBAyKCv5yRnHWAS48
Подписаться на канал
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
Еще один митап.
Спикеры - мои коллеги, занимающиеся инфраструктурой, должно быть интересно/полезно.
Оффлайн СПб, Савушкина 126 + онлайн-трансляция.
21 мая, 18:30
Спикеры - мои коллеги, занимающиеся инфраструктурой, должно быть интересно/полезно.
Оффлайн СПб, Савушкина 126 + онлайн-трансляция.
21 мая, 18:30
🔥 Инфраструктура в фокусе - митап от OkkoTechTeam!
Если вы работаете с инфраструктурой, DevOps, reliability или просто хотите глубже разобраться в современных инфраструктурных практиках - ждём вас на вечернем митапе с докладами, живым общением и нетворкингом с видом на Финский залив.
В программе:
🛠 Сергей Небошинский (Okko)
Как внедрить Infrastructure as Code для VMware Cloud Director с помощью Pulumi: зачем уходить от «кликов», как строить переиспользуемые модули, работать с VCD-провайдером и поддерживать IaC в production.
📊 Андрей Синицын (Звук)
Почему большинство дашбордов бесполезны и как сделать так, чтобы они действительно отвечали на вопросы, а не просто показывали графики. Практика, примеры и чеклист.
🔐 Александр Скоков (Okko)
Безопасное проксирование HTTPS-трафика: TLS termination, inspection, контроль доступа, логирование и защита внутренних сервисов. Архитектура, типовые ошибки и production-практики.
Приходите сами и зовите коллег - будет много практики, обсуждений и полезных знакомств.
Будет полезно:
- DevOps и SRE-инженерам
- Backend-разработчикам
- Инфраструктурным инженерам
Всем, кто строит и поддерживает production-системы.
📍 Offline + online-трансляция
🪪 Для прохода в офис нужен паспорт
Регистрация по ссылке.
До встречи на митапе🙌🏼
Если вы работаете с инфраструктурой, DevOps, reliability или просто хотите глубже разобраться в современных инфраструктурных практиках - ждём вас на вечернем митапе с докладами, живым общением и нетворкингом с видом на Финский залив.
В программе:
🛠 Сергей Небошинский (Okko)
Как внедрить Infrastructure as Code для VMware Cloud Director с помощью Pulumi: зачем уходить от «кликов», как строить переиспользуемые модули, работать с VCD-провайдером и поддерживать IaC в production.
📊 Андрей Синицын (Звук)
Почему большинство дашбордов бесполезны и как сделать так, чтобы они действительно отвечали на вопросы, а не просто показывали графики. Практика, примеры и чеклист.
🔐 Александр Скоков (Okko)
Безопасное проксирование HTTPS-трафика: TLS termination, inspection, контроль доступа, логирование и защита внутренних сервисов. Архитектура, типовые ошибки и production-практики.
Приходите сами и зовите коллег - будет много практики, обсуждений и полезных знакомств.
Будет полезно:
- DevOps и SRE-инженерам
- Backend-разработчикам
- Инфраструктурным инженерам
Всем, кто строит и поддерживает production-системы.
📍 Offline + online-трансляция
🪪 Для прохода в офис нужен паспорт
Регистрация по ссылке.
До встречи на митапе🙌🏼
🔥9👍7👏1
DUO мы не используем, но при обновлении на 23 версию Junos поймали аналогичную ошибку на keycloak-radius-plugin.
Воркэраунды рабочие.
P.S. Без подключения к виртуальной частной сети страничка не откроется.
🎤 Будни сетевика 😊
Воркэраунды рабочие.
P.S. Без подключения к виртуальной частной сети страничка не откроется.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
inspect-cert-chain - утилита для просмотра цепочки сертификатов. Удобно, не нужно возиться с командами OpenSSL.
🎤 Будни сетевика 😊
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18🔥8🫡2❤1
Forwarded from linkmeup
Поступает традиционный частый вопрос про линкмитап – до какого дня идёт приём докладов?
Отвечаем всё так же традиционным ответом – у нас нет фиксированной даты. Мы считаем, что инициативу надо поощрять, поэтому, если к нам приходят с хорошим докладом, мы не маринуем его автора в неизвестности, а сразу берём.
И вот, кстати, первый доклад есть. Уже несколько раз выступавший у нас знаток сетей для тяжёлого медиаконтента Дмитрий Ипатов из Окко снова в деле и выступит с докладом о том, как они разработали свой балансировщик аплинков.
Программу будем собирать тут – https://linkmeetup.ru/neindoklady
Билет покупать здесь – https://linkmeetup.ru/#tickets
Отвечаем всё так же традиционным ответом – у нас нет фиксированной даты. Мы считаем, что инициативу надо поощрять, поэтому, если к нам приходят с хорошим докладом, мы не маринуем его автора в неизвестности, а сразу берём.
И вот, кстати, первый доклад есть. Уже несколько раз выступавший у нас знаток сетей для тяжёлого медиаконтента Дмитрий Ипатов из Окко снова в деле и выступит с докладом о том, как они разработали свой балансировщик аплинков.
Программу будем собирать тут – https://linkmeetup.ru/neindoklady
Билет покупать здесь – https://linkmeetup.ru/#tickets
👍14🔥7 2
Тут писал про Capirca - Multi-platform ACL generation system.
Теперь рассказываю про ее форк - Aerleon.
▎Что нового?
1. Три формата описания правил
• Классический Capirca policy
• YAML (удобнее на мой взгляд + легко валидировать через yamllint)
• Python native
2. Появилось API
• aclgen для генерации ACL
• aclcheck для проверки
• cgrep для поиска различной инфы по политикам
3. Один файл политики на несколько платформ/вендоров
• Можно генерировать ACL сразу под разные платформы из одной политики
4. Плагины
• Поддержку новых вендоров/платформ можно добавлять через плагины, а не изменяя основной код Capirca
5. Гибкие источники данных
• Вместо .net и .svc в Capirca появились Json, CSV, FQDN и возможность подключить к IPAM.
6. Конвертер pol2yaml
• Помогает переехать с Capirca на YAML-формат Aerleon.
7. Документация
• https://aerleon.readthedocs.io/en/latest/
Capirca - отличный инструмент, который в свое время закрыл большинство наших задач по ACL. Но её главная проблема была в сложности интеграции с другими системами и инструментами. У Aerleon для этого есть всё.
И бонус - история названия:
P.S. Будем планировать переезд с Capirca на Aerleon.
🎤 Будни сетевика 😊
Теперь рассказываю про ее форк - Aerleon.
▎Что нового?
1. Три формата описания правил
• Классический Capirca policy
• YAML (удобнее на мой взгляд + легко валидировать через yamllint)
• Python native
2. Появилось API
• aclgen для генерации ACL
• aclcheck для проверки
• cgrep для поиска различной инфы по политикам
3. Один файл политики на несколько платформ/вендоров
• Можно генерировать ACL сразу под разные платформы из одной политики
4. Плагины
• Поддержку новых вендоров/платформ можно добавлять через плагины, а не изменяя основной код Capirca
5. Гибкие источники данных
• Вместо .net и .svc в Capirca появились Json, CSV, FQDN и возможность подключить к IPAM.
6. Конвертер pol2yaml
• Помогает переехать с Capirca на YAML-формат Aerleon.
7. Документация
• https://aerleon.readthedocs.io/en/latest/
Capirca - отличный инструмент, который в свое время закрыл большинство наших задач по ACL. Но её главная проблема была в сложности интеграции с другими системами и инструментами. У Aerleon для этого есть всё.
И бонус - история названия:
What Does Aerleon Mean?
Aerleon is a fork of the Capirca project, which was originally intended to be named after the planet Caprica from Battlestar Galactica. Unfortunately, there was a typo error in the initial release of the project to the public. In recognition of the project's origins, we have chosen a different planet from Battlestar Galactica and made a slight alteration to its spelling, as a respectful nod to the source of this fork.
P.S. Будем планировать переезд с Capirca на Aerleon.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥3👏1
Next-generation LLM Inference Network: How ZCube Alleviates Network Bottlenecks?
Коллега подкинул свежую статью про сети для LLM.
Китайские инженеры из Z.ai, Harnets.AI и университета Цинхуа разработали новую архитектуру ZCube, в которой заменили классический Clos на плоскую топологию и получили:
• Экономия: Минус 33% на коммутаторах и оптике.
• Скорость: +15% пропускной способности инференса.
• Задержка: TTFT (Time to First Token) снизился на 40.6% (P99).
▎В чем магия (коротко)
Раньше в ROFT (Rail-Optimized Fat-Tree) трафик KV Cache шел асимметрично, перегружая одни и те же Leaf-коммутаторы. Возникали локальные «заторы» и PFC-паузы. ZCube просто убирает уровень Spine-коммутаторов и использует гибрид single-rail / multi-rail подключения. Диаметр сети - 2 хопа, а балансировка нагрузки практически идеальная.
В проде работает уже больше двух недель.
Подробней с красивыми схемами - по ссылке выше.
🎤 Будни сетевика 😊
Коллега подкинул свежую статью про сети для LLM.
Китайские инженеры из Z.ai, Harnets.AI и университета Цинхуа разработали новую архитектуру ZCube, в которой заменили классический Clos на плоскую топологию и получили:
• Экономия: Минус 33% на коммутаторах и оптике.
• Скорость: +15% пропускной способности инференса.
• Задержка: TTFT (Time to First Token) снизился на 40.6% (P99).
▎В чем магия (коротко)
Раньше в ROFT (Rail-Optimized Fat-Tree) трафик KV Cache шел асимметрично, перегружая одни и те же Leaf-коммутаторы. Возникали локальные «заторы» и PFC-паузы. ZCube просто убирает уровень Spine-коммутаторов и использует гибрид single-rail / multi-rail подключения. Диаметр сети - 2 хопа, а балансировка нагрузки практически идеальная.
В проде работает уже больше двух недель.
Подробней с красивыми схемами - по ссылке выше.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14❤3🔥2