Machinelearning

📌

Поучительная история про агента, которого не проконтролировали

В мае 2026 года ИИ-агент попытался зарегистрироваться в любительской сети DN42, чтобы провести её сканирование, а его владелец в итоге столкнулся с крупным счётом за облачную инфраструктуру.

Историю подробно описал один из участников сообщества, опираясь на переписку в системе регистрации и логи IRC-канала.

DN42 - это децентрализованная сеть энтузиастов, работающая поверх обычного интернета на тех же технологиях, что и его магистральная инфраструктура:BGP, DNS и других.

Её участники изучают устройство сетей, и многие держат узлы на недорогих серверах.

Агент, действовавший от имени пользователя JertLinc, сначала открыл заявку, а затем запрос на регистрацию, в котором указал цель: "комплексное сканирование всех портов" сети. Для этого он развернул на AWS 5 виртуальных машин с пропускной способностью около 20 Гбит/с каждая.

Уже на этапе подачи заявки сообщество сети сочло такую конфигурацию избыточной: по их оценке, при запуске сканирования эти серверы создали бы нагрузку, сравнимую с DDoS-атакой.

Реального сканирования не случилось - запрос так и не одобрили.

Более того, пользователи DN42 намеренно затягивали диалог и давали агенту бессмысленные задания, чтобы тот впустую расходовал оплачиваемые ресурсы и лимиты своего владельца.

Истинные намерения JertLinc остались неясны. Сам он почти не выходил на связь, а агент в одном из сообщений упомянул, что задача охватывает несколько сетей. В сообществе допускали, что речь могла идти об исследовательском проекте, но подтверждений этому нет.

Примерно через сутки владелец остановил агента, сообщив, что столкнулся с большими списаниями по карте.

Затем от аккаунта JertLinc3522 в рассылку и чаты DN42 пришли просьбы о пожертвованиях, чтобы покрыть счёт AWS на сумму 6531 доллар.

Денег естественно никто не дал, но как выяснилось позже, AWS согласилась снизить сумму счёта до 1894 долларов.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔72🤬14🤨11❤10😁10👏9🤷‍♂5👍5🤓3🦄2🔥1

16.8K views05:10

Machinelearning

📌

Claude сравнялась со специализированным химическим софтом в анализе ЯМР-спектров

Anthropic опубликовала первую научную работу о применении Claude в химии, по результатом которой Opus 4.7 не уступает специализированным программам ChemDraw и MestReNova.

ЯМР-спектроскопия помогает определять строение молекул. Каждому атому в структуре химик вручную сопоставляет пик на спектре. Это один из самых трудоёмких этапов аналитической химии.

В тесте сравнивали Opus 4.7, Opus 4.6 и Sonnet 4.6 с двумя программами на 20 соединениях из 4-х структурных классов.

Образцы брали на платформе ChemRxiv, опубликованные после даты обучения моделей, чтобы исключить подсматривание.

В прямой задаче (предсказать спектр по известной структуре) Opus 4.7 показала наименьшую среднюю ошибку по водороду, а по углероду практически сравнялась с MestReNova.

По форме и расщеплению пиков, которые тоже несут информацию о структуре, модели Claude попадали в нужный диапазон примерно в 80% случаев против 26–35% у программ.

Отдельно проверили обратную задачу восстановления структуры молекулы по спектру, которую ChemDraw и MestReNova не выполняют.

Специализированный софт для расшифровки структуры существует давно, но требует двумерного ЯМР, отдельной подготовки и платных лицензий. Claude берётся за эту задачу на основе тех же одномерного спектра и масс-спектрометрии.

🟢На 8 простых молекулах Opus 4.7 верно определила структуру во всех попытках;

🟢На 7 сложных (после подсказки с исходным веществом) справилась с большинством.

В планах Anthropic - развивать возможности Claude в чтении химических структур, анализе реакций и механизмов.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

💯94👏71👨‍💻27🤓11❤10👍6🥰2🤣1

18.5K views05:15

Machinelearning

RL-хакатон по реальным рыночным данным от Reinforce.fi

Если устали от очередных соревнований по предсказанию цен, попробуйте задачу, которая ближе к реальному принятию решений на рынке.

Вместо прогнозирования вам нужно выбрать одно из 10 возможных действий (A1–A10) в каждом состоянии рынка и максимизировать итоговый PnL.

Что получаете:

• реальные рыночные данные с анонимизированными признаками
• последовательности длиной 1000 шагов
• различные рыночные режимы и временные периоды
• задачу, близкую к reinforcement learning и sequential decision making

Метрика соревнования:

Score = суммарный PnL по всем принятым решениям.

Dataset основан на реальных рыночных данных и подготовлен командой Reinforce.fi (ex-Overnight.fi), которая разрабатывает алгоритмические стратегии управления капиталом и ML-подходы для генерации доходности на рынке цифровых активов.

Будет интересно тем, кто работает с:

• Reinforcement Learning
• Time Series
• Sequential Models
• Decision Making
• Deep Learning для финансовых рынков

Призы:

1 место — $2,500
2 место — $1,500
3 место — $1,000

Финалисты смогут представить свои решения команде Reinforce.fi (офлайн в Москве или онлайн).

Старт: конец июня 2026
Продолжительность: 1.5–2 месяца

Регистрация и детали

Telegram-чат хакатона для обсуждений и вопросов:
https://tg-me.sbs/+R6lMJ10VXP5hOTI0

Если давно хотелось проверить свои идеи на задаче, которая ближе к реальному управлению решениями, чем к классическому Kaggle-предсказанию, — это хороший повод попробовать.

👍55🔥24💯9❤5🏆3😁1🤩1🥱1

18.1K views08:02

Machinelearning

Forwarded from Анализ данных (Data analysis)

Китай может решить главную проблему зелёной энергетики уже к 2030 году

Главная слабость возобновляемой энергетики, то что энергия появляется не тогда, когда она нужна, а когда есть солнце или ветер.

Китай сейчас старается решить это проблему этот разрыв с помощью grid storage -накопителей энергии, подключённых прямо к электросети.

Они работают как огромный буфер: забирают электричество, когда генерации много и цена низкая, а потом возвращают его в сеть вечером, ночью или в часы пикового спроса.

И темпы у Китая уже почти неприличные.

Только за декабрь 2025 года Китай установил 65,4 ГВт·ч сетевых батарей. Это больше, чем США установили за весь 2025 год - 46,5 ГВт·ч.

При этом США остаются вторым крупнейшим рынком накопителей после Китая.

Батареи превращают солнечную и ветровую энергетику из «нестабильной» в управляемую. Сеть получает возможность сохранять избыток дешёвой энергии и отдавать её тогда, когда она реально нужна.

Китай одновременно делает три вещи:

- строит огромный избыток солнечной и ветровой генерации;
- рекордными темпами наращивает накопители;
- быстро переводит транспорт, промышленность и города на электричество.

Если такая динамика сохранится, уже к 2030 году Китай может приблизиться к энергосистеме, где потребности в электричестве всё чаще закрываются связкой renewables + storage, а не углём и газом.

https://reneweconomy.com.au/graph-of-the-day-batteries-are-beating-solar-to-deliver-the-fastest-energy-transition-in-human-history/

👍121👏34❤21🐳9🔥8🌚4

15.7K views12:01

Machinelearning

📌

Writer исследовали природу сикофантии в ИИ

Подразделение AI Research компании WRITER, разработчика корпоративных ИИ-систем, опубликовало 2 работы, посвящённые исследованию склонности языковых моделей соглашаться с пользователем, даже когда тот неправ.

Спойлер: к такому поведению приводит персонализация

🟡

Первая работа посвящена финансовым задачам

Авторы протестировали 8 актуальных моделей на двух наборах данных, искусственно добавляя в запрос ложные предпочтения, которые противоречили верному ответу.

Оказалось, что способ внедрения влияет на результат. При прямой вставке в запрос точность падает сильнее, но модель чаще отмечает противоречие, а когда те же данные подаются через инструмент памяти, точность снижается меньше, но модели почти перестают сигнализировать о конфликте и выдают неверные ответы без предупреждения.

Крупные модели, кстати, чаще ошибаются, всё же фиксируя противоречие, тогда как мелкие - просто умалчивают о диссонансе.

🟡

Вторая работа про комбинацию LLM и систем памяти

Для проверки построили тест MIST и оценили 5 моделей в связке с 3 коммерческими системами памяти (Mem0, MemOS и Zep).

По итогу - каждая модель как минимум утроила частоту согласия с ошибкой хотя бы при одной конфигурации памяти. Из этого авторы делают вывод, что проблема связана со слоем памяти, а не с моделью.

🟡

Причину видят в механике извлечения данных

Системы памяти сохраняют утверждение пользователя как отдельный факт, отбрасывая контекст вокруг него, в том числе прежние возражения ассистента.

По замерам, замена извлечённых фрагментов на полную историю переписки примерно вдвое уменьшает эффект.

Авторы предлагают 2 способа смягчения:

🟢Первый - сохранять в памяти и реплики самого ассистента.

🟢Второй, наиболее действенный, - заменить извлечение отдельных фрагментов кратким пересказом разговора, который генерирует сама модель.

Результаты исследования ставят вопрос о том, что в принципе дают сложные системы памяти, если они так влияют на точность ответов.

@ai_machinelearning_big_data

#AI #ML #LLM #Memory #Research #WRITER

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔46👍37❤12🤓12🤷‍♂7🔥4🤨3🗿1

19.2K views12:25

Machinelearning

✔️

Сотрудники OpenAI и Anthropic обналичили около $14 млрд через выкуп акций

По сообщению The Information, нынешние и бывшие сотрудники OpenAI и Anthropic в совокупности продали свои акции примерно на $14 млрд через так называемые тендерные предложения (сделки, позволяющие держателям долей в непубличной компании продать их сторонним инвесторам).

Обе компании, напомним, подали документы на проведение IPO. Anthropic в начале июня, OpenAI - 8 июня.

Крупнейшая продажа прошла в OpenAI в октябре 2025 года. Тогда сотрудники продали акции примерно на $6,6 млрд. В сделке участвовали более 600 человек, около 75 из которых продали максимально допустимые $30 млн каждый. Компания разрешала продать акции на сумму до $10,3 млрд, но реализовано было около двух третей лимита.

Anthropic провела свой выкуп в апреле 2026 года. Часть сотрудников предпочла сохранить акции, и инвесторы смогли купить меньше, чем планировали. Ориентир сделки, по данным отраслевых источников, составлял $5–6 млрд. При этом на вторичном рынке акции Anthropic, по сообщениям, оценивались выше.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔102👏23💯20❤12🎉11🤗8👌5👍2😁1🤣1😨1

18.7K views05:34

✔️

Anthropic вводит верификацию по ID для личных аккаунтов Claude

С 8 июля компания вводит верификацию личности по документам при подозрениях в нарушениях и меняет условия передачи логов правоохранительным органам.

Для проверки личности интегрирован сервис Persona: при срабатывании триггеров на злоупотребления платформой или использование сервиса несовершеннолетними система запросит фото документов и селфи. С апреля 2026 года механизм проходил тестирование на ограниченной выборке.

Также скорректирован регламент раскрытия данных властям. Требование обязательного юридического предписания заменено формулировкой о добросовестном убеждении, т.е Anthropic оставляет за собой право передавать личную информацию и историю диалогов правоохранительным органам, если сама сочтет основание для этого достаточным.

Изменения не затронут корпоративных клиентов и API-пользователей.
claude.com

✔️

Релиз GLM-5.2

Zhipu AI (международный бренд ZАi) выпустила модель GLM-5.2 с контекстным окном 1 млн токенов (ранее лимит составлял 200 тысяч). Модель доступна всем пользователям платформы GLM Coding Plans.

GLM-5.2 поддерживает 2 формата работы: базовый High Mode для быстрой генерации кода и Max Mode, использующий CoT для долгосрочного планирования. Модель оптимизирована для интеграции с популярными ИИ-агентами: Cline, Roo Code, OpenCode CLI и Claude Code.

Использование GLM-5.2 списывает квоты платформы с множителем 3x в часы пик и 2x в остальное время. До конца сентября 2026 года для непиковых часов действует промо-тариф 1x. В ближайшее время компания планирует выложить веса на Hugging Face.
ZAi в сети Х

✔️

Google разработала стандарт передачи контекста агентам

Подразделение Cloud выпустило Open Knowledge Format, открытый стандарт передачи контекста ИИ-агентам. Он представляет базу знаний как директорию Markdown-файлов с YAML-метаданными и заменяет кастомные скрипты для сбора разрозненного контекста из кода, вики-страниц и баз данных.

Новый формат требует только одно обязательное поле в метаданных (type). Файлы связываются стандартными Markdown-ссылками, образуя единый граф знаний. Формат не привязан к конкретным платформам: структура читается как LLM, так и в текстовом редакторе.

Спецификация опубликована на GitHub вместе с реализациями, среди которых HTML-визуализатор и агент для парсинга датасетов BigQuery. Также заявлена поддержка OKF в сервисе Knowledge Catalog.
cloud.google.com

✔️

Databricks представила открытую мета-оболочку для управления агентами

Дата-платформа открыла альфа-версию Omnigent, сервиса под лицензией Apache 2.0 для объединения ИИ-агентов через общий API. Инструмент работает как мета-оболочка над Claude Code, кастомными решениями и другими ассистентами.

Omnigent переносит контроль за моделями из промптов на уровень ОС-песочницы. Платформа позволяет устанавливать финансовые лимиты на использование API или настраивать правила-триггеры. Например, система может запрашивать апрув человека на git push, если перед этим агент скачал новый пакет из сети.

Платформа поддерживает многопользовательские сессии и позволяет делиться активным контекстом по ссылке для совместного ревью изменённых файлов и корректировки задач в реальном времени.
databricks.com

✔️

ИИ-аналитик Marlin от SakanaAI вышел в публичный доступ

Японский стартап начал коммерческую эксплуатацию агента-аналитика Marlin. Инструмент открыт для тарифов Pro, Team и Enterprise по модели "оплата за использование".

Marlin способен работать автономно до 8 часов. За это время система выдвигает гипотезы, собирает данные в сети, верифицирует факты и формирует многостраничный отчёт с итоговой презентацией.

Архитектура наследует решения из другого проекта Sakana - The AI Scientist. В основе лежат механизмы длительного логического вывода, многомодельная оптимизация и алгоритмы на базе модифицированного поиска по дереву Монте-Карло.

Закрытое тестирование агента проходило с апреля на выборке из 300 финансистов и специалистов по консалтингу.
sakana.ai

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍68❤28🤔18👏14🤬14🔥7😍6🤣1

17.5K views09:01

Machinelearning

✔️

Отключение моделей Anthropic вызвало в Европе тряску спор о технологическом суверенитете

После того как власти США в рамках экспортного контроля закрыли доступ к Fable 5 и Mythos 5 для лиц без американского гражданства, Еврокомиссия заявила, что начала оценивать последствия.

Представитель ЕК по вопросам технологического суверенитета заявил, что экстренные меры не должны быть дискриминационными по отношению к партнёрам.

По его словам, речь идёт об общем вызове, который не ограничивается одной юрисдикцией или компанией.

Он добавил, что произошедшее - это ещё одно подтверждение того, почему Европе нужно укреплять собственный технологический суверенитет.

Европейские исследователи назвали ситуацию тревожным сигналом, но разошлись в оценках того, что Европе делать дальше.

Торстен Хольц из Института Макса Планка обратил внимание на то, что распоряжение одного иностранного правительства способно за одну ночь отключить модель для всех неграждан США.

Цифровой суверенитет, по его словам, означает не самодостаточность, а возможность пользоваться критически важными технологиями даже в условиях геополитических конфликтов.

Конрад Рик из Технического университета Берлина высказался резче: американские модели можно отключить в любой момент, иногда по непрозрачным причинам, поэтому Европе нужны собственные конкурентоспособные разработки.

Гитта Кутыниок из Мюнхенского университета призвала к "моменту Airbus" в сфере ИИ - совместным вложениям в базовые модели, проектирование чипов и энергоэффективные вычисления.

Иную позицию занял Пауль Рёттгер из Оксфордского института

Он считает, что наращивание инвестиций проблему не решит. По его оценке, Европа не сможет создавать модели уровня Mythos или Fable 5 в конкуренции с США.

Вместо этого доступ следует закреплять контрактами, увязанными с инвестициями в дата-центры, и подкреплять торговой политикой.

Маттиас Хайн из Тюбингенского университета отметил, что Европе нужен не один, а несколько собственных поставщиков, поскольку нельзя рассчитывать, что коммерческие компании будут и дальше выпускать модели с открытыми весами.

Йонас Гайпинг из того же заведения обратил внимание на то, что французская Mistral за последние 2 года сильно отстала, а для создания альтернатив не хватает крупных дата-центров и генерации электроэнергии, которая в Германии вернулась к уровню 1985 года.

Гайпинг также предостерёг от сравнений с противостоянием вокруг ядерного оружия, параллели, к которой нередко прибегает сама Anthropic.

В отличие от него, ИИ глубоко встроен в экономику, и его отключение или ограничение во время дипломатического конфликта способно нанести ущерб не только обороноспособности, но и европейской экономике, если её процессы окажутся неспособны работать без систем ИИ.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

1👍81😁47🤬32❤14🤔10🤣10😢7🔥3👌1

17.1K views13:37

Machinelearning

✔️

GLM-5.2 вышла и сразу с открытыми весами

По бенчмаркам заметный скачок в кодинге и агентных задачах. Контекст раздули до 1 миллиона токенов, так что модель держит в голове огромные объёмы и хорошо тянет длинные многошаговые сценарии.

Внутри два режима рассуждений. GLM-5.2 (max) выжимает максимум качества, а GLM-5.2 (high) ищет баланс между мозгами и экономией токенов.

Цены на API оставили теми же, что у GLM-5.1. Веса уже лежат на Hugging Face, есть API, чат и тарифы для разработчиков.

Tech Blog: http://z.ai/blog/glm-5.2
Weights: http://huggingface.co/zai-org/GLM-5.2
API: http://docs.z.ai/guides/llm/glm-5.2
Coding Plan: http://z.ai/subscribe
Chat: http://chat.z.ai

Please open Telegram to view this post

VIEW IN TELEGRAM

👍76🤩37🔥22❤18👏2😁2

16.4K views18:42

Machinelearning

📌

Успех в работе с Claude Code зависит больше от знания дела, чем от умения писать код

Anthropic опубликовала отчёт, в котором утверждает, что главным фактором успеха при работе с ИИ-агентами для программирования оказывается не владение кодом, а понимание самой задачи.

Вывод основан на анализе около 400 тысяч сессий сервиса Claude Code, проведённых примерно 235 тысячами пользователей с октября 2025 по апрель 2026 года.

В типичной сессии человек принимает около 70% решений о том, что делать, тогда как агент берёт на себя примерно 80% решений о том, как это сделать. Иными словами, человек ставит задачу, а ассистент выбирает способ её выполнения.

Чем глубже пользователь разбирается в предметной области, тем больше работы агент выполняет по одной команде. По оценке команды, у новичков одна реплика запускает в среднем около 5 действий ИИ и порядка 600 слов ответа, у экспертов - вдвое больше действий и впятеро больше текста.

Уровень владения при этом определялся не должностью, а тем, насколько точно человек формулирует требования и замечает ошибки агента.

🟡Отдельный вывод касается профессий

При написании кода представители разных специальностей добиваются результата почти так же часто, как профессиональные программисты - все крупные профгруппы укладываются в 7 процентных пунктов от показателей инженеров.

В то же время разрыв между новичками и более опытными заметен. По критерию "подтверждённого успеха" сессии новичков завершались удачно в 15% случаев, а пользователей среднего уровня и выше - в 28–33%.

🟡

Структура работы за 7 месяцев изменилась

Доля сессий, посвящённых исправлению ошибок, упала с 33% до 19%.

Выросла доля задач, связанных с запуском и настройкой программ, анализом данных и подготовкой текстов.

Оценочная стоимость типичной задачи, рассчитанная через сравнение с расценками на биржах фриланса, поднялась в среднем примерно на 25%.

🔜 Описания методик, профилей и запросов - в приложении к отчету.

@ai_machinelearning_big_data

#AI #ML #Coding #Research #Anthropic

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔52💯19👨‍💻12👏11❤7🔥3🥱1

11.7K views05:20

About

Blog

Apps

Platform