Forwarded from ЦДО “Моноид”
Evals for AI Safety — это методология измерения качества, надежности и безопасности ИИ-систем. В условиях повсеместного внедрения языковых моделей в продакшн умение корректно оценивать их возможности и риски становится приоритетным навыком.
Как устроен курс:
Цель курса:
Дать базу для начала карьеры в области оценки ИИ и понимание того, какую роль evals играет в AI Safety. Программа знакомит с основными концепциями evals, учит анализировать существующие бенчмарки, проектировать собственные оценки и разрабатывать дизайн экспериментов в области evals. Участники курса освоят Inspect AI (один из самых популярных фреймворков для оценки LLM).
Кого мы ждем:
Подробнее: тут
Подать заявку на участие в курсе, а также на фасилитацию можно до 22 февраля: тут
Если вам интересно менторство, преподавание, сотрудничество с курсом или вы хотите задать вопрос, то напишите Юле
Please open Telegram to view this post
VIEW IN TELEGRAM
Love. Death. Transformers.
Деплоймент клавда нереальный будет. + Обзор этой штуки
Девушка собрала часа за 2, все очень просто в целом, неплохие камеры и микрофон, 2 dgx spark едут потому что RPI бессмысленно для этого + streaming openai API полынй калл
🔥55👍7😍4😁3❤🔥2💋2
Love. Death. Transformers.
Девушка собрала часа за 2, все очень просто в целом, неплохие камеры и микрофон, 2 dgx spark едут потому что RPI бессмысленно для этого + streaming openai API полынй калл
С моделями для стриминга и такого рода девайсов все не очень, по сути архитектура становится многоуровневой, эмоции-тулколы-стриминг разносятся на разные уровни и получается очень большая штука
1❤🔥16🔥7🤔6💋1
https://huggingface.co/datasets/zai-org/terminal-bench-2-verified
о да мой любимый вид контента - бенчи которые работают
о да мой любимый вид контента - бенчи которые работают
huggingface.co
zai-org/terminal-bench-2-verified · Datasets at Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
😁31🔥7💋3
Forwarded from Техножрица 👩💻👩🏫👩🔧
Подписчики: - Мы хотим детекцию сгенерированных текстов.
Я: - У нас есть детекция сгенерированных текстов дома.
Детекция сгенерированных текстов дома: https://www.reviewer3.com/evidence/arena - попробуй угадать сам, какая рецензия написана человеком, а какая - LLMкой!
Я: - У нас есть детекция сгенерированных текстов дома.
Детекция сгенерированных текстов дома: https://www.reviewer3.com/evidence/arena - попробуй угадать сам, какая рецензия написана человеком, а какая - LLMкой!
Reviewer3
Review Arena: Which Is Human? - Reviewer3
Read two blinded review comments and pick the one written by a human reviewer.
1😁46🔥3💅1
Крутой хакатон от мистраля!
А если будете в Париже или Токио или SF будет возможность развирутализироватся с одним из админов
worldwide-hackathon.mistral.ai/
А если будете в Париже или Токио или SF будет возможность развирутализироватся с одним из админов
worldwide-hackathon.mistral.ai/
worldwide-hackathon.mistral.ai
Mistral AI Worldwide Hackathon 2026: build the next era of AI
48 hours. 7 cities. Limitless innovation. Join Mistral AI’s 2026 Hackathon, build with cutting-edge AI, and win big. Open to global innovators—register now and redefine AI!
🔥24🥱15🥴6 3
Yandex покатил релизы вслед за AIRI
https://huggingface.co/Qwen/Qwen3.5-397B-A17B
- гибридный attn
- MTP
- 256к нативно и YARN до 1м
https://huggingface.co/Qwen/Qwen3.5-397B-A17B
- гибридный attn
- MTP
- 256к нативно и YARN до 1м
😁172🤪22 9👍8💊6💋2🔥1
Love. Death. Transformers.
Yandex покатил релизы вслед за AIRI https://huggingface.co/Qwen/Qwen3.5-397B-A17B - гибридный attn - MTP - 256к нативно и YARN до 1м
юмор автора инициализирован весами программы Аншлаг, но в репорте сказано, что АКБ
😁78💋6🔥3
Love. Death. Transformers.
С моделями для стриминга и такого рода девайсов все не очень, по сути архитектура становится многоуровневой, эмоции-тулколы-стриминг разносятся на разные уровни и получается очень большая штука
если еще подумать и поигратся с квантами то ситуация остается очень и очень печальной
ну как сказать, клод всю ночь игрался с mlx и проиграл
ну как сказать, клод всю ночь игрался с mlx и проиграл
1👍9😭5💩3🔥1💋1
GAIA
Тема давно уже известная, но тк я страдаю ADHD опишу
- это бенчмарк способность агента делать сравнительно бесполезную, но сложную работу, а именно:
Что делать с этой информацией? Что оно меряет? я лично без понятия
При этом это неплохая прокси для общих агентов посмотреть "а что там вообще изменилось"
За год произошло следущее
- тулколы последовательные норм у всех завелись
- скафолды ощутимо докидывают
- без норм ллмов делать особо нечего
- KIMI хороша на бенчах
link
Тема давно уже известная, но тк я страдаю ADHD опишу
- это бенчмарк способность агента делать сравнительно бесполезную, но сложную работу, а именно:
A paper about AI regulation that was originally submitted to arXiv.org in June 2022 shows a figure with three axes, where each axis has a label word at both ends. Which of these words is used to describe a type of society in a Physics and Society article submitted to arXiv.org on August 11, 2016?
Что делать с этой информацией? Что оно меряет? я лично без понятия
При этом это неплохая прокси для общих агентов посмотреть "а что там вообще изменилось"
За год произошло следущее
- тулколы последовательные норм у всех завелись
- скафолды ощутимо докидывают
- без норм ллмов делать особо нечего
- KIMI хороша на бенчах
link
👍27🔥7😁3💔1💋1