Love. Death. Transformers.

Все ещё хайрю пиздатых челов делать foundational audio captioning и тд и прочее

https://jobs.ashbyhq.com/whitecircle/faed1751-5780-4921-ae39-7fad06d412fb

🥴5620🍓14🔥3💩3😘3💊2😁1

8.07K viewsedited 12:57

Love. Death. Transformers.

0:20

This media is not supported in your browser

VIEW IN TELEGRAM

😍5915🔥3🍓2💋2❤‍🔥1

7.78K views21:53

Love. Death. Transformers.

Forwarded from Осцилляции WaveCut (WaveCut)

Это было неизбежно: рано или поздно должны были появиться специализированные решения для инференса.
И вот, Taalas (бывшая команда из Tenstorrent) выкатили то, чего я так ждал — настоящий Direct-to-Silicon.

Ребята не стали мелочиться и буквально «запекли» модель в кремний. Никакой внешней памяти, никакого HBM, никакой сложной упаковки. Веса модели и архитектура — это и есть сам чип.

Цифры выглядят дико: 17,000 токенов в секунду на Llama 3.1 8B.
Это на порядок быстрее текущей SOTA GPU, при этом чип стоит в 20 раз дешевле в производстве и потребляет в 10 раз меньше энергии.
Самое крутое, что это не просто красивые слайды для инвесторов. Железо уже существует, и его можно «потрогать» (ссылка на демо внизу).
Upd: не все это волшебство и такая скорость достигается не без компромиссов — запеченные веса урезаны в от 3 до 6 бит точности, а контекст в демо ограничен тысячей токенов на вход и столько же на вывод.

Конечно, это ASIC, и тут есть нюанс: чип заточен под одну конкретную модель. Но Taalas продумали этот момент — они оставили поддержку LoRA-адаптеров и изменяемого контекстного окна. То есть это не совсем уж «кирпич», гибкость для файн-тюнинга остается.

Сейчас у них готов чип с Llama 8B (HC1). Весной обещают выкатить что-то среднеразмерное с ризонингом, а к зиме грозятся показать фронтир-модель на втором поколении кремния.

У меня голова идет кругом от мыслей к чему это может привести.

Ссылки:
• Анонс
• Демо (скорость реально впечатляет)

82🔥58👍10😨5👏2🍓2💋11

5.69K views08:30

Love. Death. Transformers.

Твоя жопа — это бум, это бум, это бум
Она заставляет меня терять ум

https://github.com/facebookresearch/eb_jepa

96🔥21😁9🍌1💋1

8.66K viewsedited 09:06

Love. Death. Transformers.

Audio

вообще JEPA это продолжение очень старых идей что любой dl решает задачу апроксимации пространство, а как лучше предсказывать? через mse style loss + можно перефомулировать через энергию, а вот зачем - другой вопрос.

💅326🔥3😍1💋1

8.29K viewsedited 09:19

Love. Death. Transformers.

💯139🔥1310😭87❤‍🔥4👍4💋1

12.1K views10:25

Love. Death. Transformers.

My monthly cost of living

🏠 1,400€ loan for the appartment
🥗 450€ food, organic only, with meat fish etc
📦 300€ average for various expenses (bars, orders, etc)
⚡160€ electricity + gaz
📱 45€ phone + internet
🚌 17€ average for transportation
🦪10000€ anthropic openclaws tokens

Total: 12,372€/month

2🔥14366😭30😁1711👍2🍓2💋2👾2😍1

9.37K views13:12

Love. Death. Transformers.

86😨47😁2711🔥6✍1👍1💋1

9.49K views14:19

Love. Death. Transformers.

ОХУЕННО
(Скам но очень смешной)

https://github.com/HKUDS/ClawWork

54😁23🔥5🤓5😨32💋1

8.91K viewsedited 18:11

Love. Death. Transformers.

https://huggingface.co/papers/2602.15763

🗿31🥱5❤‍🔥4🔥1💯1

8.58K views08:04

Love. Death. Transformers.

в целом с выходом opus4.5 модели как будто перешагнули некоторую критическую границу полезности(не заметную на бенчах), если до этого вызов и нормальное планирование функций было чем то решаемым, но внешим и чужим для моделей, то теперь модели взаимоделйствуют…

😁2512🔥1

8.18K views09:59

Love. Death. Transformers.

О, кто-то таки затюнил квена на файлах Эпштейна

https://huggingface.co/ortegaalfredo/MechaEpstein-8000-GGUF

huggingface.co

ortegaalfredo/MechaEpstein-8000-GGUF · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

🔥7948😁30🗿4💯3🌚2🍌2

12K views12:32

Love. Death. Transformers.

Forwarded from Кофейный теоретик

Курс про мегаминкс.

Сначала фан факт: я знаком с чемпионами мира по футболу. По футболу среди человекоподобных роботов. Ну и вот, по предложению этого самого чемпиона мира по футболу, Ильи Осокина, решено сделать проект по постановке мирового рекорда по скорости сборки мегаминкса (см. рис. 1).

Мегаминкс - это перестановочный пазл, похожий на кубик Рубика, но имеющий гораздо больше состояний. У него не 6, а 12 граней (это правильный додекаэдр), и у каждой грани не 4 стороны, а 5. Для обычного кубика Рубика в 2010 году было показано, что диаметр графа состояний (самый длинный кратчайший путь между состояниями) составляет 20. Для мегаминкса есть оценка снизу в 48 и сверху в 116, но точное значение человечеству пока неизвестно. Мировой рекорд по сборке кубика Рубика 3x3 человеком составляет 2,76 секунды, а роботом - 103 миллисекунды. Это вполне объяснимо, поскольку робот может и крутить, и считать существенно быстрее. Однако для мегаминкса человеческий рекорд составляет 21,99 секунды, а рекордное время сборки роботом около 8 минут. Роботы могут быть и быстрее, и сильнее людей в отдельных задачах, но в универсальности пока отстают.

В наличии имеется робот, разработанный в Лаборатории Интеллектуальных Технологий Робототехники МФТИ. Это первый в мире робот для сборки мегаминкса, в котором обеспечивается независимое вращение всех граней.

С алгоритмом сложнее. Есть человеческий алгоритм сборки, требующий порядка 200 ходов. Но общего рецепта поиска коротких сборок (и тем более оптимальных) нет.

Теперь, куда я собственно всех приглашаю. Будет мини курс и соревнование.

Мини-курс

Формальным аппаратом для описания пазлов, подобных мегаминксу, являются группы, графы и всякие связанные штуки: графы Кэли. действия групп на графах и кое-какая наука связанная с этим. Так что теоретическая база будет изложена на мини курсе, который проведут Андроник Арутюнов, профессор ВШМ МФТИ, и Игорь Шиманогов.

В первой части курса расскажем про группы, графы и действия. Будут изучены ключевые аспекты того, как группы действуют на множествах — в частности, на графах — и как это связано с головоломками и прикладными задачами.
Определим действие группы на множестве и сразу узнаем сколькими способами можно раскрасить куб в заданное количество цветов. Потом поговорим про графы Кэли, и как это даёт наглядную геометрическую интерпретацию образующих и соотношений группы. Тут обсудим комбинаторный взгляд на алгоритмы, скорость работы и так называемое «число Бога».

В рамках второй части курса Игорь Шиманогов расскажет про классический результат вычислительной теории групп: алгоритм Шрайера-Симса. Этот алгоритм представляет интерес как один из основных способов решения произвольных перестановочных головоломок. В лекциях будет рассказана вся необходимая теория для доказательства корректности данного алгоритма. При наличии времени и желания у слушателей возможно как рассмотрение модификаций алгоритма, так и его применение к другим вопросам теории групп.

Лекциии будут проходить в очном формате, с задержкой в неделю будут выкладываться на канале Starkit Robots на youtube.

Соревнование

Мини-курс будет идти с 27 февраля в течение двух месяцев в 17:05 часов на физтехе. Аудитория будет опубликована в чате, см. ссылку в конце поста.

Для тестирования алгоритмов будет выложен в свободный доступ симулятор мегаминкса, с которым можно будет работать на Python.

В конце апреля или начале мая будет проведено оффлайн-соревнование, на котором будет определен победитель. Скорее всего, робот с этим алгоритмом будет самым быстрым в мире на тот момент.

Участвовать могут как студенты МФТИ, так и все остальные желающие. Для участия обязательно зарегистироваться в форме!

Ссылки и контакты

Форма для регистрации
Руководитель проекта: Илья Осокин tg @elijahmipt
Чат соревнования в тг: @starkitmega

Проект поддержал фонд целевого капитала.

🔥3621🥱66🍓2👍1

6.92K views14:26

Love. Death. Transformers.

Forwarded from O

Всем привет! Выкладываем в опенсорс asr_eval - средства для оценки качества распознавания речи и построения пайплайнов (выравнивание строк, средства аннотации, диаграммы, дашборды, потоковые буферы, коллекция моделей и датасетов).

Это ранний релиз, скоро ещё выложим метрики моделей и новый размеченный датасет русскоязычной речи.

Репо: https://github.com/SibNN/asr_eval
Препринт: https://arxiv.org/abs/2601.20992

🔥52🥴7👍3💋1

8.23K views19:00

Love. Death. Transformers.

Я забираю назад все хорошее что говорил про клавс это .... Это уже культурный феномен что ли

🍓63😁47💩11🌚4🔥33

8.2K views01:25

Love. Death. Transformers.

1🔥88😁41🥴10💯9💩4🤪4👍2🥱11

13.5K views10:41

Love. Death. Transformers.

🔥7542👍12😁5🥱3💯21

14.9K views12:00

Love. Death. Transformers.

теперь ждем когда посттрен бенч рефайнед в котором выкинут задачи которые плохо решаются

😁57😨3🔥1

7.2K viewsedited 18:33

Love. Death. Transformers.

Forwarded from Марков цепи пропил

Можно ли построить детерминированную систему на базе LLM

Последние несколько дней аутирую над этой темой, потому что периодически натыкаюсь на эксперименты, где люди пытаются заставить сетку что-нибудь дизассемблировать, перегонять разные форматы данных к одному типу и т.п. Поэтому у меня возник вопрос: насколько подобные проекты применимы в продакшене? Ведь если алгоритм выдает разные результаты на один и тот же набор данных, это может породить непредсказуемое поведение для всей системы. Кажется, будто ответ лежит на поверхности - ставишь temperature=0 и greedy decoding всегда берет один и тот же наиболее вероятный токен. Но на деле это работает не совсем так.

Чтобы понять почему, нужно взять во внимание одно фундаментальное свойство чисел с плавающей точкой - неассоциативность. В математике (a + b) + c = a + (b + c), но когда дело начинает касаться float, на сцену выходит стандарт IEEE 754. Float хранит фиксированное количество значимых цифр, и когда складываете числа с очень разными масштабами, хвост отбрасывается:


(0.1 + 1e20) - 1e20  # = 0.0
0.1 + (1e20 - 1e20)  # = 0.1

Ниже приведу несколько статей, которые отталкиваются от этого свойства, но подсвечивают разные причины и варианты решений:

1) Understanding and Mitigating Numerical Sources of Nondeterminism in LLM Inference [ссылка] - разное железо

Авторы взяли 4 модели - два reasoning-варианта на базе DeepSeek-R1 и два instruct-варианта (Qwen2.5 и Llama-3.1) и прогнали их на 12 разных конфигурациях: два типа GPU (A100 и L40S), разное их количество и разный размер батча. В результате разброс точности на AIME'24 достигал 9%, а длина ответа расходилась до 9000 токенов при одном и том же промпте и greedy decoding.

Здесь важен аппаратный контекст. Исследователи из Манчестерского университета экспериментально проверили [ссылка], как тензорные ядра считают на V100, T4 и A100 - и обнаружили, что поведение отличается в зависимости от микроархитектуры (например V100 выполняет матричное умножение тайлами 4x4x4, A100 - тайлами 8x8x4, т.е. одно и то же произведение разбивается на разное количество шагов с разными промежуточными суммами, и из-за неассоциативности float итог разный). При этом NVIDIA в официальной документации PTX ISA [ссылка] прямо указывает для операций с .f16 и .bf16: "The accumulation order, rounding and handling of subnormal inputs is unspecified".

А так как в LLM инференсе повсеместно используется BF16 (с 7 битами мантиссы), токены с близкими вероятностями могут поменяться местами. В статье приведен пример: в точке расхождения два прогона дают токену "know" вероятности 49.75% и 46.65% и в одном прогоне побеждает "know", в другом "have". Расхождение происходит в среднем на 45-82 токене в зависимости от модели. Для reasoning-моделей это особенно критично, потому что одно неверное слово в начале разворачивается в другую цепочку рассуждений.

Собственно, они предлагают решить эту проблему через LayerCast [GitHub]: веса модели хранятся в BF16, но все вычисления выполняются в FP32 (23 бита мантиссы). Оно не устраняет ключевую проблему, но делает модель более устойчивой. Однако FP32 вычисления медленнее, потому что современные GPU оптимизированы под 16-битные тензорные операции. Хз, насколько именно оно медленнее - авторы статьи не предоставили этих тестов

5🔥89👍7🤔75😁2

7.33K views20:29

About

Blog

Apps

Platform