Запартнерились зі Стенфордом, Гарвардом та UPenn і запустили розробку своїх бенчмарків.
Фокусуємось на:
- Ментал хелс, бо шо не місяць, то суїцид
- Генетиці, бо Гарвард підтримує
- Жіночому здоровʼю, бо переважна частина даних - чоловіча, і моделі сильно лажають в порадах для жінок.
Робимо то перед запуск наступного продукту, який має все звʼязати до купи.
Узгоджуємо злиття нашого health olymp з medarena від стенфорду. Якщо домовимось, то отримуємо доступ до всіх їх даних.
Формально, чекаємо пару тижнів, щоб матеріалізувалось пара великих проєктів, і несемось далі з анонсами в дослідженнях, бо там нормально так відкриттів назбиралось
Фокусуємось на:
- Ментал хелс, бо шо не місяць, то суїцид
- Генетиці, бо Гарвард підтримує
- Жіночому здоровʼю, бо переважна частина даних - чоловіча, і моделі сильно лажають в порадах для жінок.
Робимо то перед запуск наступного продукту, який має все звʼязати до купи.
Узгоджуємо злиття нашого health olymp з medarena від стенфорду. Якщо домовимось, то отримуємо доступ до всіх їх даних.
Формально, чекаємо пару тижнів, щоб матеріалізувалось пара великих проєктів, і несемось далі з анонсами в дослідженнях, бо там нормально так відкриттів назбиралось
🔥89❤5🤝1
Remote спиздив бабки, а потім заблокував аккаунт :)
В травні нас зачарджили двічі. Ми про це повідомили, а вони пообіцяли повернути гроші.
Гроші не повернули, але нагадали, що час платити по новому інвойсу.
Ми запитались за реконсіліейшн, вони сказали шо та, ізі-пізі.
Ніц не зробили, акк заблукали за несплату
Дайте лайк пліз ось тут https://www.linkedin.com/posts/ruslannazarenko_remote-double-charged-and-suspended-our-account-activity-7344461302452346880-uiMM?utm_source=share&utm_medium=member_ios&rcm=ACoAAA4ph-ABIGNGwVwFFOq5faYj4MBoPC9ITOc
Тре якось привернути увагу до того
В травні нас зачарджили двічі. Ми про це повідомили, а вони пообіцяли повернути гроші.
Гроші не повернули, але нагадали, що час платити по новому інвойсу.
Ми запитались за реконсіліейшн, вони сказали шо та, ізі-пізі.
Ніц не зробили, акк заблукали за несплату
Дайте лайк пліз ось тут https://www.linkedin.com/posts/ruslannazarenko_remote-double-charged-and-suspended-our-account-activity-7344461302452346880-uiMM?utm_source=share&utm_medium=member_ios&rcm=ACoAAA4ph-ABIGNGwVwFFOq5faYj4MBoPC9ITOc
Тре якось привернути увагу до того
LinkedIn
Remote double charged us, suspended our account | Ruslan Nazarenko posted on the topic | LinkedIn
UPD: Friday night we got contacted by Remote’s executives. Our account isn’t suspended anymore, and we’re talking to Remote’s team and expecting the full resolution on Monday. I must say, that I didn’t expect reaction from their executive team, giving how…
❤11🤯6👍1
Запустили останню фічу в пошуку хьюман експертів.
Ми тепер знаємо все, що знає майже кожна окрема людина.
Скайнет.
Глянути тут можна https://www.linkedin.com/posts/ruslannazarenko_next-announcement-i-watched-this-industry-activity-7345882049620103168-Zvb2?utm_source=share&utm_medium=member_ios&rcm=ACoAAA4ph-ABIGNGwVwFFOq5faYj4MBoPC9ITOc
Ми тепер знаємо все, що знає майже кожна окрема людина.
Скайнет.
Глянути тут можна https://www.linkedin.com/posts/ruslannazarenko_next-announcement-i-watched-this-industry-activity-7345882049620103168-Zvb2?utm_source=share&utm_medium=member_ios&rcm=ACoAAA4ph-ABIGNGwVwFFOq5faYj4MBoPC9ITOc
LinkedIn
Building a knowledge graph for health and life-science experts | Ruslan Nazarenko posted on the topic | LinkedIn
Next announcement 🗺️
I watched this industry go from relying on high school chemistry teachers to post-docs for data labeling in a few months.
And the results?
Still not good enough.
So, what’s next? Nobel Prize winners aren’t going to label the data.…
I watched this industry go from relying on high school chemistry teachers to post-docs for data labeling in a few months.
And the results?
Still not good enough.
So, what’s next? Nobel Prize winners aren’t going to label the data.…
🔥24
Шукаємо head of GTM.
$10k за реферал.
ТС доволі солідний. Тільки кеш складова разом з бонусом буде десь під $400к (більше ніж у всіх фаундерів разом взятих).
https://thelumos.notion.site/Head-of-GTM-214f184d940d80e6b548d9947c73c7fa
$10k за реферал.
ТС доволі солідний. Тільки кеш складова разом з бонусом буде десь під $400к (більше ніж у всіх фаундерів разом взятих).
https://thelumos.notion.site/Head-of-GTM-214f184d940d80e6b548d9947c73c7fa
🔥7👍5🤩4
Напевно найпопулярніше питання, яке я чую останнім часом від клієнтів, інвесторів і індустрії - "Шо там по ХелсБенчу"?
ОАІ три місяці назад запалішив новий бенчмарк, якій має показати перфоманс моделі в хелсі.
Запаблішив то й грець з ними. Краще ніж нічого. Але вони почали це пушити і використовувати як маркетинговий інструмент. І тут, ми маємо проблемку.
Маркетинг зайшов занадто далеко.
Шо ОАІ каже? Що це 5000 чатів, які евалюйтели сотні лікарів.
Що насправді?
З 5000 тисяч - половина, це звичайний QA бенчмарк (питання - відповідь). Інша половина - короткий мульті-тьорн (майже все там - то 2 тьорни). Ба більше, ті тьорни (умовно) знаходяться на рівні інструкції, тому то не є справжнім діалогом. Для евалюйшенів вони обрали тільки останнє повідомлення, а не всю розмову. Більшість з того - це сентитино створені діалоги. Хрен з ним, але ж вони ще і максимально поверхневі.
Тобто, ОАІ обіцяв неймовірно наближену до життя дату, в 5000 чатів, з ручним розбором лікарів.
А видав 1.5 тьорновий датасет, згенерований хер пойми як, з якого ледь 1% був перевірений лікарями.
І тепер тягають то всюди, шоб продати себе одразу в госпіталі.
А як воно насправді робе - ось тут є відповідь
https://www.linkedin.com/feed/update/urn:li:activity:7358589263858364417/
ОАІ три місяці назад запалішив новий бенчмарк, якій має показати перфоманс моделі в хелсі.
Запаблішив то й грець з ними. Краще ніж нічого. Але вони почали це пушити і використовувати як маркетинговий інструмент. І тут, ми маємо проблемку.
Маркетинг зайшов занадто далеко.
Шо ОАІ каже? Що це 5000 чатів, які евалюйтели сотні лікарів.
Що насправді?
З 5000 тисяч - половина, це звичайний QA бенчмарк (питання - відповідь). Інша половина - короткий мульті-тьорн (майже все там - то 2 тьорни). Ба більше, ті тьорни (умовно) знаходяться на рівні інструкції, тому то не є справжнім діалогом. Для евалюйшенів вони обрали тільки останнє повідомлення, а не всю розмову. Більшість з того - це сентитино створені діалоги. Хрен з ним, але ж вони ще і максимально поверхневі.
Тобто, ОАІ обіцяв неймовірно наближену до життя дату, в 5000 чатів, з ручним розбором лікарів.
А видав 1.5 тьорновий датасет, згенерований хер пойми як, з якого ледь 1% був перевірений лікарями.
І тепер тягають то всюди, шоб продати себе одразу в госпіталі.
А як воно насправді робе - ось тут є відповідь
https://www.linkedin.com/feed/update/urn:li:activity:7358589263858364417/
LinkedIn
OpenAI releasing open-weight models is a great move — but if you're building in healthcare, don’t get too comfortable. | Ruslan…
OpenAI releasing open-weight models is a great move — but if you're building in healthcare, don’t get too comfortable.
Open models are still underrated. Anyone building on the application layer knows the drill:
deploy a model → find an issue → tweak prompts…
Open models are still underrated. Anyone building on the application layer knows the drill:
deploy a model → find an issue → tweak prompts…
🔥14😱4👍2❤1💩1🥱1
Днями мав розмову з подругою про стан ринку праці. Поки розмовляли, дійшли до цікавої думки.
ЗПшкі в штатах просіли, роботу шукати важко. Є декілька драйверів:
1. Росте зараз тікі АІ
2. Дуже багато виходців з YC. YC «вже не той», замість двох батчей по 20 людей, тепер їх чотири на півтори сотні кожен. Там їм кажуть, шо вони вирішують дуже складну проблему, яку ніхто до них не вирішував. Здебільшого, то діти, і вони чують «ми унікальні, все що було до нас, то в нас не спрацює»
3. Тому вони шукають «розумних» студентів. Розум оцінюється за другорядними фактами - участь в систерстві/братерстві, класні статті, робота/стажування в консалтингу (бо опс то основна роль в АІ)
4. Як результат, діти наймають дітей, яким можна платити менше, розраховуючи, що з їх iq і чатом джіпіті вони стягнуть. Тому дисконтують експертів з роками досвіду
5. Весь інший ринок завмер і чекає, чи той АІ всіх замінить чи ні.
Думаю, що то поміняється, бо:
- АІ замінить, компанії подорослішають, борд захоче бачити «зрозуміли» обличчя
- АІ не замінить, хайп пройде, діти з чатом не стягнуть, повага до років досвіду повернеться
Засновано суто на анекдотах
ЗПшкі в штатах просіли, роботу шукати важко. Є декілька драйверів:
1. Росте зараз тікі АІ
2. Дуже багато виходців з YC. YC «вже не той», замість двох батчей по 20 людей, тепер їх чотири на півтори сотні кожен. Там їм кажуть, шо вони вирішують дуже складну проблему, яку ніхто до них не вирішував. Здебільшого, то діти, і вони чують «ми унікальні, все що було до нас, то в нас не спрацює»
3. Тому вони шукають «розумних» студентів. Розум оцінюється за другорядними фактами - участь в систерстві/братерстві, класні статті, робота/стажування в консалтингу (бо опс то основна роль в АІ)
4. Як результат, діти наймають дітей, яким можна платити менше, розраховуючи, що з їх iq і чатом джіпіті вони стягнуть. Тому дисконтують експертів з роками досвіду
5. Весь інший ринок завмер і чекає, чи той АІ всіх замінить чи ні.
Думаю, що то поміняється, бо:
- АІ замінить, компанії подорослішають, борд захоче бачити «зрозуміли» обличчя
- АІ не замінить, хайп пройде, діти з чатом не стягнуть, повага до років досвіду повернеться
Засновано суто на анекдотах
❤50🤔18👍1😁1💯1
Ми шукаємо компанію, яка займається лінкедін скрепінгом. На вхід ми даємо імʼя + місто + додаткову інфу. На вихід очікуємо лінкедін урл і вся інфу з профайлу. Обʼєм - 300к для старту і 10М на весь проєкт. Може хтось має інтроси до наших колдаутрічерів?
❤7👍2
На понеділок шукаємо психіатрів та PhD in clinical psychology або схожих доменах для тесту нової моделі від відомої лаби.
Треба по 1-2 людини на кожну з наступних мов:
- Vietnamese
- Urdu
- Bangla
- Japanese
- Italian
- Indonesian
Проєкт займе 20-40 годин, з оплатою $50-$100 за годину, в залежності від країни
А вдруг
Треба по 1-2 людини на кожну з наступних мов:
- Vietnamese
- Urdu
- Bangla
- Japanese
- Italian
- Indonesian
Проєкт займе 20-40 годин, з оплатою $50-$100 за годину, в залежності від країни
А вдруг
❤8😱4
На дуже короткий проєкт шукаю комьюніті менеджера на діскорд.
Треба налаштувати сервер, набудувати авто-повідомлення і всяке таке
Якщо ви таке робили - напишіть @rossvn з прикладом серверу. Дякую!
Треба налаштувати сервер, набудувати авто-повідомлення і всяке таке
Якщо ви таке робили - напишіть @rossvn з прикладом серверу. Дякую!
❤5
Шукаємо на контракт мідлового фулстака.
Команда, що створює AI-інфраструктуру для навчання та оцінки моделей, шукає тіммейта на part-time контракт (2-3 місяці) з можливістю переходу у full-time за кілька місяців.
Основний фокус – створення POC-рішень для клієнтів.
Технології та інструменти:
Front-end: React (Next.js), Zustand, Tailwind, Shadcn UI
Back-end: Node.js (Nest.js), MongoDB, Firestore, PostgreSQL
Інфраструктура: Google Cloud Platform (GCP), Vercel, Docker
Аналітика: Posthog
Тестування: Jest, Playwright
Інше: Git, CI/CD
Що ти робитимеш:
Розробка POC під конкретні задачі та швидкий вивід на ринок
Додавання нового функціоналу на платформу
Написання та підтримка автотестів
Робота з компонентними бібліотеками
Інтеграція сторонніх API та сервісів
Обов’язково:
Від 2 років комерційного досвіду
Здорове продуктове мислення – вміння оцінювати рішення не лише з технічного боку, а й з точки зору користувача та цінності для бізнесу
Буде плюсом:
Досвід запуску проектів з нуля
Досвід побудови пайплайнів обробки даних та парсерів
Знання Python (особливо FastAPI)
Процес найму простий:
Перегляд CV + GitHub
Дзвінок з командою
Технічне інтерв’ю
Писати на пошту: serhii@thelumos.ai
Команда, що створює AI-інфраструктуру для навчання та оцінки моделей, шукає тіммейта на part-time контракт (2-3 місяці) з можливістю переходу у full-time за кілька місяців.
Основний фокус – створення POC-рішень для клієнтів.
Технології та інструменти:
Front-end: React (Next.js), Zustand, Tailwind, Shadcn UI
Back-end: Node.js (Nest.js), MongoDB, Firestore, PostgreSQL
Інфраструктура: Google Cloud Platform (GCP), Vercel, Docker
Аналітика: Posthog
Тестування: Jest, Playwright
Інше: Git, CI/CD
Що ти робитимеш:
Розробка POC під конкретні задачі та швидкий вивід на ринок
Додавання нового функціоналу на платформу
Написання та підтримка автотестів
Робота з компонентними бібліотеками
Інтеграція сторонніх API та сервісів
Обов’язково:
Від 2 років комерційного досвіду
Здорове продуктове мислення – вміння оцінювати рішення не лише з технічного боку, а й з точки зору користувача та цінності для бізнесу
Буде плюсом:
Досвід запуску проектів з нуля
Досвід побудови пайплайнів обробки даних та парсерів
Знання Python (особливо FastAPI)
Процес найму простий:
Перегляд CV + GitHub
Дзвінок з командою
Технічне інтерв’ю
Писати на пошту: serhii@thelumos.ai
❤6👍3
Друзі шукають гроуз менеджера в AI health стартап. YC, класні інвестори, гарна команда.
Ремоут - раді захайрити українців (включно тих, хто в Україні)
Треба досвід в закупці трафіка, тому якщо хто з Генезіса/Велтека, можете цілитися в верхню планку $100к
https://jobs.ashbyhq.com/legionhealth/72c9f771-7a37-4fc8-addf-ab820f9a1a66
Ремоут - раді захайрити українців (включно тих, хто в Україні)
Треба досвід в закупці трафіка, тому якщо хто з Генезіса/Велтека, можете цілитися в верхню планку $100к
https://jobs.ashbyhq.com/legionhealth/72c9f771-7a37-4fc8-addf-ab820f9a1a66
Ashbyhq
Founding Growth Lead (AI-native B2C mental health, $7M+ raised, backed by Y Combinator, Remote)
B2C Growth Wizard at Legion Health 🚀 Help scale an AI-native psychiatry clinic delivering world-class care. Own experiments across acquisition, product, and retention. SF-based.
👍16🔥6
Чатік, допоможи
Шукаю рішення для генерації аудіо, але:
1. Треба акценти (і бажано різного рівня, від «жив в штатах 20років» до «тікі переїхав з китайського села»
2. Можливість додавати дісторшини - декілька людей розмовляє на фоні, телік, шуми і тд, але ідеально, щоб це не просто дві аудіодорожки, а прям в основній
Шукаю рішення для генерації аудіо, але:
1. Треба акценти (і бажано різного рівня, від «жив в штатах 20років» до «тікі переїхав з китайського села»
2. Можливість додавати дісторшини - декілька людей розмовляє на фоні, телік, шуми і тд, але ідеально, щоб це не просто дві аудіодорожки, а прям в основній
🤔6
Стаю задротом настікі, що радість в житті - то написаний пейпер.
Але, жарти в сторону. Наш пейпер прийняли на одну Щ найбільш престижніших конференцій світу.
Будемо розповідати за оптимізацію RL training-а через мекінтерп підходи.
https://www.linkedin.com/posts/ruslannazarenko_holy-moly-our-paper-just-got-accepted-by-activity-7421655339676246017-xhYN?utm_source=share&utm_medium=member_ios&rcm=ACoAAA4ph-ABIGNGwVwFFOq5faYj4MBoPC9ITOc
Але, жарти в сторону. Наш пейпер прийняли на одну Щ найбільш престижніших конференцій світу.
Будемо розповідати за оптимізацію RL training-а через мекінтерп підходи.
https://www.linkedin.com/posts/ruslannazarenko_holy-moly-our-paper-just-got-accepted-by-activity-7421655339676246017-xhYN?utm_source=share&utm_medium=member_ios&rcm=ACoAAA4ph-ABIGNGwVwFFOq5faYj4MBoPC9ITOc
LinkedIn
Holy moly, our paper just got accepted by ICLR! Yup, one of THE MOST prestigious AI conferences out there.
We'll be in Rio, April…
We'll be in Rio, April…
Holy moly, our paper just got accepted by ICLR! Yup, one of THE MOST prestigious AI conferences out there.
We'll be in Rio, April 23-27 -- presenting our findings of Medical Mechinterp research. On the main stage.
To make things even better...
By that…
We'll be in Rio, April 23-27 -- presenting our findings of Medical Mechinterp research. On the main stage.
To make things even better...
By that…
❤36🔥8👍5
Шукаємо medical oncologists with lung cancer exp.
Шукаємо в штатах, us board certified. Короткий проєкт - 10г на тиждень, 6 тижнів поспіль.
Оплата - $220/г
Треба 5 людей на вчора, тому даємо $500 реферальний бонус.
Якщо якимось чудом ви таких знаєте - кажіть 🙏
Шукаємо в штатах, us board certified. Короткий проєкт - 10г на тиждень, 6 тижнів поспіль.
Оплата - $220/г
Треба 5 людей на вчора, тому даємо $500 реферальний бонус.
Якщо якимось чудом ви таких знаєте - кажіть 🙏
👀9❤3
Давно тут не було ніц по темі.
Сиджу в літаку, на шляху до ICLR. 20 годин дорога, а все тому, що у нас прийняли наші наукові статті, а декілька членів команди запросили провести воркшопи.
Сідайте зручніше, поговоримо за стан ринку даних та А(G)I.
Претрейнінг закінчився. По мірках індустрії, можна сказати - доволі давно.
Фокус на мідтрейнінгу і RL environments. В цілому, ніхто не відмовився від ідеї того, що без різонінгу чуда не буде, але рецепт пошуку цього різнонінгу трошки інакший.
Замість one shot тренування через SFT (пара питання-відповідь), індустрія погодилась, що треба робити багатокрокове навчання. На практиці, RL світ має в собі набір задач та інструменти їх виконання.
Агент отримує задачу. І починає крок за кроком її виконувати. Найскладніше - побудувати оціночні критерії. Як зрозуміти, що агент робить те, що робити треба?
Почалось все з verifiable domains - код і математика. Критерій - це хардкодом прописані правила. Наприклад, не вказавши FROM table_x - sql кверя не спрацює. Для такої оцінки, нам не треба LLM-as-a-judge. Для такої оцінки - нам треба люди, які будуть писати ці критерії, запускати агента, дивитись де він облажався, міняти критерії і так по колу.
Далі до лаб дійшло, що будь-який домен має both - verifiable and unverifiable частини. Як тільки це зʼясувалось, ми побачили швидкий ріст в медицині, лайф-сайнсі, лігалі і інших (раніше) недоторканних доменів.
Тут все ще є куди рости, і основних обмежень тут два:
- треба навчитись перекладати те, що традиційно вважається «наукою» в набор готових правил
- або зменшувати шум (= покращувати точність) для unverifiable складових.
Умовно, пацієнту з діагнозом Х треба виписати лікі Y - це правило, яке перевіряється наступним чином:
- (агент робить діагностику)
- агент створює замовлення на ліки (бажано використовуючи АРІ коли схожі на систему в якій лікар виписує лікі)
- ми перевіряємо, чи в функції переданий правильний діагноз, і правильна назва лік.
Запускаємо агента 10-100-1000 разів, і руками переглядаємо результат.
Чому руками?
Бо модель може сказати «ібупрофен» і якщо першочергово ми сказали, що тільки «аспірин» є прийнятним - то ібупрофенбуде зарахований як помилка. Тому людина має глянути і додати «аспірин», як прийнятий варіант.
І це - verifiable.
А тепер модель може сказати - «пий аспірин два рази на день дві таблетки» або ж «в цьому випадку, варто приймати пігулки аспірину двічі на день в дозуванні XYZ, і якщо через 3 дні стан не покращиться - треба звернутись до лікаря».
Тут вже мова про емпатію і правила не напишеш, доводиться давати оціночне судження по шкалі від 1 до 10. Але ж скільки людей - стільки і думок. І хоча можна назбирати велику вибірку - це і є проблема шуму в тренуванні.
А далі зʼявиться ще проблема - за виконання яких кроків яку винагороду ми даємо моделі? Для цього треба робити рекорд функцію.
І тут ми приходимо до найцікавішого.
Scale з ринку витиснув Mercor. Їх швидкість і якість була краща за Scale, за рахунок старту з чистого аркушу. Вони побудували набагато кращі інструменти для аналізу даних і зробили це швидко.
Але Mercor (як і Scale) ніц не розуміють в доменах. До чого тут домени?
Щоб побудувати реворд - треба доволі багато ітерацій. Ітерацій, де ти будуєш той реворд, дивишся як міняється відповідь моделі в результаті перетренування, і міняєш дизайн.
Це означає - що треба одночасно розумітись на тренуванні моделей, а ще і на домені (олсо, ще одна причина чому все з кодінгу почалось - бо кодити вони всі вміють самі).
І тут можна було б сказати - тю, так Mercor може ж купити собі доменних експертів в команду.
Може, але рісьорч + фінанси, це напрочуд непопулярний стек. І таких людей не дуже багато, мʼяко кажучи.
І ось виходить, що основні проблеми в індустрії:
- таланти, яких геть не вистачає
- а якщо їх не вистачає, ми намагаємось будувати інфру і закривати той гєп технологіями
- а щоб будувати інфру, треба зараз одночасно менеджити GPU, збирати RL світи, менеджити людей, експериментувати з ревордами.
Ну і там ще потроху.
Сиджу в літаку, на шляху до ICLR. 20 годин дорога, а все тому, що у нас прийняли наші наукові статті, а декілька членів команди запросили провести воркшопи.
Сідайте зручніше, поговоримо за стан ринку даних та А(G)I.
Претрейнінг закінчився. По мірках індустрії, можна сказати - доволі давно.
Фокус на мідтрейнінгу і RL environments. В цілому, ніхто не відмовився від ідеї того, що без різонінгу чуда не буде, але рецепт пошуку цього різнонінгу трошки інакший.
Замість one shot тренування через SFT (пара питання-відповідь), індустрія погодилась, що треба робити багатокрокове навчання. На практиці, RL світ має в собі набір задач та інструменти їх виконання.
Агент отримує задачу. І починає крок за кроком її виконувати. Найскладніше - побудувати оціночні критерії. Як зрозуміти, що агент робить те, що робити треба?
Почалось все з verifiable domains - код і математика. Критерій - це хардкодом прописані правила. Наприклад, не вказавши FROM table_x - sql кверя не спрацює. Для такої оцінки, нам не треба LLM-as-a-judge. Для такої оцінки - нам треба люди, які будуть писати ці критерії, запускати агента, дивитись де він облажався, міняти критерії і так по колу.
Далі до лаб дійшло, що будь-який домен має both - verifiable and unverifiable частини. Як тільки це зʼясувалось, ми побачили швидкий ріст в медицині, лайф-сайнсі, лігалі і інших (раніше) недоторканних доменів.
Тут все ще є куди рости, і основних обмежень тут два:
- треба навчитись перекладати те, що традиційно вважається «наукою» в набор готових правил
- або зменшувати шум (= покращувати точність) для unverifiable складових.
Умовно, пацієнту з діагнозом Х треба виписати лікі Y - це правило, яке перевіряється наступним чином:
- (агент робить діагностику)
- агент створює замовлення на ліки (бажано використовуючи АРІ коли схожі на систему в якій лікар виписує лікі)
- ми перевіряємо, чи в функції переданий правильний діагноз, і правильна назва лік.
Запускаємо агента 10-100-1000 разів, і руками переглядаємо результат.
Чому руками?
Бо модель може сказати «ібупрофен» і якщо першочергово ми сказали, що тільки «аспірин» є прийнятним - то ібупрофенбуде зарахований як помилка. Тому людина має глянути і додати «аспірин», як прийнятий варіант.
І це - verifiable.
А тепер модель може сказати - «пий аспірин два рази на день дві таблетки» або ж «в цьому випадку, варто приймати пігулки аспірину двічі на день в дозуванні XYZ, і якщо через 3 дні стан не покращиться - треба звернутись до лікаря».
Тут вже мова про емпатію і правила не напишеш, доводиться давати оціночне судження по шкалі від 1 до 10. Але ж скільки людей - стільки і думок. І хоча можна назбирати велику вибірку - це і є проблема шуму в тренуванні.
А далі зʼявиться ще проблема - за виконання яких кроків яку винагороду ми даємо моделі? Для цього треба робити рекорд функцію.
І тут ми приходимо до найцікавішого.
Scale з ринку витиснув Mercor. Їх швидкість і якість була краща за Scale, за рахунок старту з чистого аркушу. Вони побудували набагато кращі інструменти для аналізу даних і зробили це швидко.
Але Mercor (як і Scale) ніц не розуміють в доменах. До чого тут домени?
Щоб побудувати реворд - треба доволі багато ітерацій. Ітерацій, де ти будуєш той реворд, дивишся як міняється відповідь моделі в результаті перетренування, і міняєш дизайн.
Це означає - що треба одночасно розумітись на тренуванні моделей, а ще і на домені (олсо, ще одна причина чому все з кодінгу почалось - бо кодити вони всі вміють самі).
І тут можна було б сказати - тю, так Mercor може ж купити собі доменних експертів в команду.
Може, але рісьорч + фінанси, це напрочуд непопулярний стек. І таких людей не дуже багато, мʼяко кажучи.
І ось виходить, що основні проблеми в індустрії:
- таланти, яких геть не вистачає
- а якщо їх не вистачає, ми намагаємось будувати інфру і закривати той гєп технологіями
- а щоб будувати інфру, треба зараз одночасно менеджити GPU, збирати RL світи, менеджити людей, експериментувати з ревордами.
Ну і там ще потроху.
❤16🔥3
Фіча в тому, шо раніше треба було багато даних і таких, як тобі скажуть. А зараз треба менше і ти сам маєш казати, як воно має виглядати.
RL as a service - домінуючий тренд. І основний бізнес Scale з прицілом на ентерпрайзи. DoorDash купив RLaaS пару тижнів назад за притомні гроші. Забавно, але купили, після того як стала їх клієнтом спочатку (знаю то все, бо фаундер - наш ангел).
І це зараз настільки top of mind, що сюди летять буквально всі, хто тільки може - госпіталі, старі Лайф сайнси, фарма, стартапи, інфра профільна, інфра загальна (як от виробники чіпів і карт). Кароче, несеться.
Ще є багато що сказати за термінал стейти в RL, мульті-тьорнр, задачі з довшим горизонтом і евали. Але то певно наступним разом. Поінт такий - якщо ваша команда сильна в операційці або сидить на пулі талантів, don’t walk run в цей двіж, бо потім будете локті кусати.
RL as a service - домінуючий тренд. І основний бізнес Scale з прицілом на ентерпрайзи. DoorDash купив RLaaS пару тижнів назад за притомні гроші. Забавно, але купили, після того як стала їх клієнтом спочатку (знаю то все, бо фаундер - наш ангел).
І це зараз настільки top of mind, що сюди летять буквально всі, хто тільки може - госпіталі, старі Лайф сайнси, фарма, стартапи, інфра профільна, інфра загальна (як от виробники чіпів і карт). Кароче, несеться.
Ще є багато що сказати за термінал стейти в RL, мульті-тьорнр, задачі з довшим горизонтом і евали. Але то певно наступним разом. Поінт такий - якщо ваша команда сильна в операційці або сидить на пулі талантів, don’t walk run в цей двіж, бо потім будете локті кусати.
🤯6👍2
Де фронтір?
З RLHF в 2024 перейшли в RLVR в 2025.
RLHF - це у нас є діалог, і кожне повідомлення експерти оцінюють по заздалегідь підготовленим критерія і кажуть, чому така оцінка.
RLVR (reinforcement learning with verifiable rewards) - це ми перевіряємо відповідь моделі на критерії, де є обʼєктивна правда. Почалось це в кодінгу і математиці, бо код або працює, або ні.
Модель (агент) потрапляє в середовище, де має набір інструментів (умовний калькулятор, або там можливість порухати шахи на дошці). І ми перевіряємо, чи 2+2 дорівнює 4 в кінці.
Для дати, це означає, що нам треба помістити в таке саме середовище людину, і попросити у неї вирішити задачу, записуючи кожен її крок. Це є golden trajectory // oracle solution.
Від звичайного tool use, індустрія пішла в більш складні кейси - step by step reasoning, free text output, etc.
Зараз фронтір проходить довкола unverifiable domains (або шматків доменів, які мають багато субʼєктивності). Умовно - що таке гарний лендос? Ото ж.
Scale опублікував RaR - rubrics as rewards. Це дозволяє враховувати не тільки аутпут, а проміжні кроки (що має бути в різонінгу, який стиль у таблиць і тд).
Проблема з рубриками в тому, що вони стохастичні, бо побудовані як LLM judge. Здебільшого, люди просто запускали того джаджа 10-50-100-1000 разів і садили людину перевіряти результати, постійно модифікуючи інструкції джаджа.
Зараз перемкнулись на наступну схему:
- експерт створює 5-10-15 критеріїв (наступних кроків)
- синтетично перетворюють це в 50 рубрик
- запускають оцінку
- відповіді джаджа вертають в пайплайн генерації джаджів
- додають ще 10-30 рубрик
- людина приходиться по результатам оцінки, і дає фідбек
- фідбек улітає в пайплайн генерації джаджів
- на виході чистий список, з яким погодилось декілька експертів
Станом на сьогодні, ускладнюють декілька штук, окрім рубрік:
- комплексність синтетичного світу. Тепер це цілий набор інструментів і вони більш деталізовані.
- кількість кроків - моделі класно справляються, коли це два-три кроки, а ось коли 7+ - то все сиплеться.
Щоб ускладнювати світи, починають збирати форки даних - ту само проблему можно вирішити через кроки 1, 2, 3, а можна через 5, 6, 7.
Це, в свою чергу, робить процес кратер дорожче, бо замі ми б легких задач з однією гілкою рішення, переходять до складних на 3-5-7 гілок.
А кожна гілка - це валідація і алаймент.
Що з цим робити - вже відомо, а розповім пізніше, як тікі запустимо це рішення.
👁️👄👁️
З RLHF в 2024 перейшли в RLVR в 2025.
RLHF - це у нас є діалог, і кожне повідомлення експерти оцінюють по заздалегідь підготовленим критерія і кажуть, чому така оцінка.
RLVR (reinforcement learning with verifiable rewards) - це ми перевіряємо відповідь моделі на критерії, де є обʼєктивна правда. Почалось це в кодінгу і математиці, бо код або працює, або ні.
Модель (агент) потрапляє в середовище, де має набір інструментів (умовний калькулятор, або там можливість порухати шахи на дошці). І ми перевіряємо, чи 2+2 дорівнює 4 в кінці.
Для дати, це означає, що нам треба помістити в таке саме середовище людину, і попросити у неї вирішити задачу, записуючи кожен її крок. Це є golden trajectory // oracle solution.
Від звичайного tool use, індустрія пішла в більш складні кейси - step by step reasoning, free text output, etc.
Зараз фронтір проходить довкола unverifiable domains (або шматків доменів, які мають багато субʼєктивності). Умовно - що таке гарний лендос? Ото ж.
Scale опублікував RaR - rubrics as rewards. Це дозволяє враховувати не тільки аутпут, а проміжні кроки (що має бути в різонінгу, який стиль у таблиць і тд).
Проблема з рубриками в тому, що вони стохастичні, бо побудовані як LLM judge. Здебільшого, люди просто запускали того джаджа 10-50-100-1000 разів і садили людину перевіряти результати, постійно модифікуючи інструкції джаджа.
Зараз перемкнулись на наступну схему:
- експерт створює 5-10-15 критеріїв (наступних кроків)
- синтетично перетворюють це в 50 рубрик
- запускають оцінку
- відповіді джаджа вертають в пайплайн генерації джаджів
- додають ще 10-30 рубрик
- людина приходиться по результатам оцінки, і дає фідбек
- фідбек улітає в пайплайн генерації джаджів
- на виході чистий список, з яким погодилось декілька експертів
Станом на сьогодні, ускладнюють декілька штук, окрім рубрік:
- комплексність синтетичного світу. Тепер це цілий набор інструментів і вони більш деталізовані.
- кількість кроків - моделі класно справляються, коли це два-три кроки, а ось коли 7+ - то все сиплеться.
Щоб ускладнювати світи, починають збирати форки даних - ту само проблему можно вирішити через кроки 1, 2, 3, а можна через 5, 6, 7.
Це, в свою чергу, робить процес кратер дорожче, бо замі ми б легких задач з однією гілкою рішення, переходять до складних на 3-5-7 гілок.
А кожна гілка - це валідація і алаймент.
Що з цим робити - вже відомо, а розповім пізніше, як тікі запустимо це рішення.
👁️👄👁️
👏14❤5🤯2🫡1
Long shot, але штош
Розширюємо команду в Європі потроху, тому шукаємо людей на наступні ролі:
- SPL with Data/model training background
- FDE - at least 6yoe, ideally with experience in agentic workflows
- AI research - safety, alignment and/or post-training (ideally from a frontier lab)
- MDs/IMs - min 5yoe after school, preferably speaking Japanese, Mandarin, Korean, Portuguese, or German // USBC is a strong advantage.
- Postdocs with wet lab experience and/or bioinformatics focused (gene editing or protein folding)
Складна частина - всі ролі шукаємо виключно в Парижі.
Писати можна мені @rossvn
Розширюємо команду в Європі потроху, тому шукаємо людей на наступні ролі:
- SPL with Data/model training background
- FDE - at least 6yoe, ideally with experience in agentic workflows
- AI research - safety, alignment and/or post-training (ideally from a frontier lab)
- MDs/IMs - min 5yoe after school, preferably speaking Japanese, Mandarin, Korean, Portuguese, or German // USBC is a strong advantage.
- Postdocs with wet lab experience and/or bioinformatics focused (gene editing or protein folding)
Складна частина - всі ролі шукаємо виключно в Парижі.
Писати можна мені @rossvn
🔥12❤2
Якщо ви знаєте стартапи в драг діскавері, які останнім часом мають трошки фінансових труднощів - я б дуже зрадів інтро.
Шукаємо компанії, які на межі закриття для викупу доступу до накопичених даних. Дуже цікаво PDB довкола hotspot IDing, сіквкнси для epitope, і все що поруч.
Готові платити $10-50к в залежності від якості і обʼємів.
Окремо - якщо хтось має пептидні датасети, розглянемо викуп в межах до $100к
Шукаємо компанії, які на межі закриття для викупу доступу до накопичених даних. Дуже цікаво PDB довкола hotspot IDing, сіквкнси для epitope, і все що поруч.
Готові платити $10-50к в залежності від якості і обʼємів.
Окремо - якщо хтось має пептидні датасети, розглянемо викуп в межах до $100к
👍7👀1