Love. Death. Transformers.
24.5K subscribers
4.57K photos
522 videos
81 files
2.98K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
Все ещё хайрю пиздатых челов делать foundational audio captioning и тд и прочее

https://jobs.ashbyhq.com/whitecircle/faed1751-5780-4921-ae39-7fad06d412fb
🥴5620🍓14🔥3💩3😘3💊2😁1
Forwarded from Осцилляции WaveCut (WaveCut)
Это было неизбежно: рано или поздно должны были появиться специализированные решения для инференса.
И вот, Taalas (бывшая команда из Tenstorrent) выкатили то, чего я так ждал — настоящий Direct-to-Silicon.

Ребята не стали мелочиться и буквально «запекли» модель в кремний. Никакой внешней памяти, никакого HBM, никакой сложной упаковки. Веса модели и архитектура — это и есть сам чип.

Цифры выглядят дико: 17,000 токенов в секунду на Llama 3.1 8B.
Это на порядок быстрее текущей SOTA GPU, при этом чип стоит в 20 раз дешевле в производстве и потребляет в 10 раз меньше энергии.
Самое крутое, что это не просто красивые слайды для инвесторов. Железо уже существует, и его можно «потрогать» (ссылка на демо внизу).
Upd: не все это волшебство и такая скорость достигается не без компромиссов — запеченные веса урезаны в от 3 до 6 бит точности, а контекст в демо ограничен тысячей токенов на вход и столько же на вывод.

Конечно, это ASIC, и тут есть нюанс: чип заточен под одну конкретную модель. Но Taalas продумали этот момент — они оставили поддержку LoRA-адаптеров и изменяемого контекстного окна. То есть это не совсем уж «кирпич», гибкость для файн-тюнинга остается.

Сейчас у них готов чип с Llama 8B (HC1). Весной обещают выкатить что-то среднеразмерное с ризонингом, а к зиме грозятся показать фронтир-модель на втором поколении кремния.

У меня голова идет кругом от мыслей к чему это может привести.


Ссылки:
Анонс
Демо (скорость реально впечатляет)
82🔥58👍10😨5👏2🍓2💋11
Твоя жопа — это бум, это бум, это бум
Она заставляет меня терять ум

https://github.com/facebookresearch/eb_jepa
96🔥21😁9🍌1💋1
Audio
вообще JEPA это продолжение очень старых идей что любой dl решает задачу апроксимации пространство, а как лучше предсказывать? через mse style loss + можно перефомулировать через энергию, а вот зачем - другой вопрос.
💅326🔥3😍1💋1
💯139🔥1310😭87❤‍🔥4👍4💋1
My monthly cost of living

🏠 1,400€ loan for the appartment
🥗 450€ food, organic only, with meat fish etc
📦 300€ average for various expenses (bars, orders, etc)
160€ electricity + gaz
📱 45€ phone + internet
🚌 17€ average for transportation
🦪10000€ anthropic openclaws tokens

Total: 12,372€/month
2🔥14366😭30😁1711👍2🍓2💋2👾2😍1
86😨47😁2711🔥61👍1💋1
ОХУЕННО
(Скам но очень смешной)

https://github.com/HKUDS/ClawWork
54😁23🔥5🤓5😨32💋1
Курс про мегаминкс.

Сначала фан факт: я знаком с чемпионами мира по футболу. По футболу среди человекоподобных роботов. Ну и вот, по предложению этого самого чемпиона мира по футболу, Ильи Осокина, решено сделать проект по постановке мирового рекорда по скорости сборки мегаминкса (см. рис. 1).

Мегаминкс - это перестановочный пазл, похожий на кубик Рубика, но имеющий гораздо больше состояний. У него не 6, а 12 граней (это правильный додекаэдр), и у каждой грани не 4 стороны, а 5. Для обычного кубика Рубика в 2010 году было показано, что диаметр графа состояний (самый длинный кратчайший путь между состояниями) составляет 20. Для мегаминкса есть оценка снизу в 48 и сверху в 116, но точное значение человечеству пока неизвестно. Мировой рекорд по сборке кубика Рубика 3x3 человеком составляет 2,76 секунды, а роботом - 103 миллисекунды. Это вполне объяснимо, поскольку робот может и крутить, и считать существенно быстрее. Однако для мегаминкса человеческий рекорд составляет 21,99 секунды, а рекордное время сборки роботом около 8 минут. Роботы могут быть и быстрее, и сильнее людей в отдельных задачах, но в универсальности пока отстают.

В наличии имеется робот, разработанный в Лаборатории Интеллектуальных Технологий Робототехники МФТИ. Это первый в мире робот для сборки мегаминкса, в котором обеспечивается независимое вращение всех граней.

С алгоритмом сложнее. Есть человеческий алгоритм сборки, требующий порядка 200 ходов. Но общего рецепта поиска коротких сборок (и тем более оптимальных) нет.

Теперь, куда я собственно всех приглашаю. Будет мини курс и соревнование.

Мини-курс

Формальным аппаратом для описания пазлов, подобных мегаминксу, являются группы, графы и всякие связанные штуки: графы Кэли. действия групп на графах и кое-какая наука связанная с этим. Так что теоретическая база будет изложена на мини курсе, который проведут Андроник Арутюнов, профессор ВШМ МФТИ, и Игорь Шиманогов.

В первой части курса расскажем про группы, графы и действия. Будут изучены ключевые аспекты того, как группы действуют на множествах — в частности, на графах — и как это связано с головоломками и прикладными задачами.
Определим действие группы на множестве и сразу узнаем сколькими способами можно раскрасить куб в заданное количество цветов. Потом поговорим про графы Кэли, и как это даёт наглядную геометрическую интерпретацию образующих и соотношений группы. Тут обсудим комбинаторный взгляд на алгоритмы, скорость работы и так называемое «число Бога».

В рамках второй части курса Игорь Шиманогов расскажет про классический результат вычислительной теории групп: алгоритм Шрайера-Симса. Этот алгоритм представляет интерес как один из основных способов решения произвольных перестановочных головоломок. В лекциях будет рассказана вся необходимая теория для доказательства корректности данного алгоритма. При наличии времени и желания у слушателей возможно как рассмотрение модификаций алгоритма, так и его применение к другим вопросам теории групп.

Лекциии будут проходить в очном формате, с задержкой в неделю будут выкладываться на канале Starkit Robots на youtube.

Соревнование

Мини-курс будет идти с 27 февраля в течение двух месяцев в 17:05 часов на физтехе. Аудитория будет опубликована в чате, см. ссылку в конце поста.

Для тестирования алгоритмов будет выложен в свободный доступ симулятор мегаминкса, с которым можно будет работать на Python.

В конце апреля или начале мая будет проведено оффлайн-соревнование, на котором будет определен победитель. Скорее всего, робот с этим алгоритмом будет самым быстрым в мире на тот момент.


Участвовать могут как студенты МФТИ, так и все остальные желающие. Для участия обязательно зарегистироваться в форме!

Ссылки и контакты

Форма для регистрации
Руководитель проекта: Илья Осокин tg @elijahmipt
Чат соревнования в тг: @starkitmega

Проект поддержал фонд целевого капитала.
🔥3621🥱66🍓2👍1
Forwarded from O
Всем привет! Выкладываем в опенсорс asr_eval - средства для оценки качества распознавания речи и построения пайплайнов (выравнивание строк, средства аннотации, диаграммы, дашборды, потоковые буферы, коллекция моделей и датасетов).

Это ранний релиз, скоро ещё выложим метрики моделей и новый размеченный датасет русскоязычной речи.

Репо: https://github.com/SibNN/asr_eval
Препринт: https://arxiv.org/abs/2601.20992
🔥52🥴7👍3💋1
Я забираю назад все хорошее что говорил про клавс это .... Это уже культурный феномен что ли
🍓63😁47💩11🌚4🔥33
1🔥88😁41🥴10💯9💩4🤪4👍2🥱11
🔥7542👍12😁5🥱3💯21
теперь ждем когда посттрен бенч рефайнед в котором выкинут задачи которые плохо решаются
😁57😨3🔥1
Можно ли построить детерминированную систему на базе LLM

Последние несколько дней аутирую над этой темой, потому что периодически натыкаюсь на эксперименты, где люди пытаются заставить сетку что-нибудь дизассемблировать, перегонять разные форматы данных к одному типу и т.п. Поэтому у меня возник вопрос: насколько подобные проекты применимы в продакшене? Ведь если алгоритм выдает разные результаты на один и тот же набор данных, это может породить непредсказуемое поведение для всей системы. Кажется, будто ответ лежит на поверхности - ставишь temperature=0 и greedy decoding всегда берет один и тот же наиболее вероятный токен. Но на деле это работает не совсем так.

Чтобы понять почему, нужно взять во внимание одно фундаментальное свойство чисел с плавающей точкой - неассоциативность. В математике (a + b) + c = a + (b + c), но когда дело начинает касаться float, на сцену выходит стандарт IEEE 754. Float хранит фиксированное количество значимых цифр, и когда складываете числа с очень разными масштабами, хвост отбрасывается:


(0.1 + 1e20) - 1e20 # = 0.0
0.1 + (1e20 - 1e20) # = 0.1


Ниже приведу несколько статей, которые отталкиваются от этого свойства, но подсвечивают разные причины и варианты решений:

1) Understanding and Mitigating Numerical Sources of Nondeterminism in LLM Inference [ссылка] - разное железо

Авторы взяли 4 модели - два reasoning-варианта на базе DeepSeek-R1 и два instruct-варианта (Qwen2.5 и Llama-3.1) и прогнали их на 12 разных конфигурациях: два типа GPU (A100 и L40S), разное их количество и разный размер батча. В результате разброс точности на AIME'24 достигал 9%, а длина ответа расходилась до 9000 токенов при одном и том же промпте и greedy decoding.

Здесь важен аппаратный контекст. Исследователи из Манчестерского университета экспериментально проверили [ссылка], как тензорные ядра считают на V100, T4 и A100 - и обнаружили, что поведение отличается в зависимости от микроархитектуры (например V100 выполняет матричное умножение тайлами 4x4x4, A100 - тайлами 8x8x4, т.е. одно и то же произведение разбивается на разное количество шагов с разными промежуточными суммами, и из-за неассоциативности float итог разный). При этом NVIDIA в официальной документации PTX ISA [ссылка] прямо указывает для операций с .f16 и .bf16: "The accumulation order, rounding and handling of subnormal inputs is unspecified".

А так как в LLM инференсе повсеместно используется BF16 (с 7 битами мантиссы), токены с близкими вероятностями могут поменяться местами. В статье приведен пример: в точке расхождения два прогона дают токену "know" вероятности 49.75% и 46.65% и в одном прогоне побеждает "know", в другом "have". Расхождение происходит в среднем на 45-82 токене в зависимости от модели. Для reasoning-моделей это особенно критично, потому что одно неверное слово в начале разворачивается в другую цепочку рассуждений.

Собственно, они предлагают решить эту проблему через LayerCast [GitHub]: веса модели хранятся в BF16, но все вычисления выполняются в FP32 (23 бита мантиссы). Оно не устраняет ключевую проблему, но делает модель более устойчивой. Однако FP32 вычисления медленнее, потому что современные GPU оптимизированы под 16-битные тензорные операции. Хз, насколько именно оно медленнее - авторы статьи не предоставили этих тестов
5🔥89👍7🤔75😁2