В этой подборке — реальные кейсы и инструменты, которые меняют практику разработки ИИ: от ассистента на Марсе и новых подходов к верифицированным кодовым агентам до инфраструктурных апдейтов для масштабирования, оценки и безопасности агентных систем.
Anthropic объявила, что их модель Claude помогла марсоходу Perseverance выполнить первый в истории «ассистированный» манёвр на другой планете — четыре сотни метров по Марсу, что прямо показывает, как большие языковые модели уже участвуют в автономных космических операциях: Claude помог Perseverance.
Исследование практики мультиагентных систем напоминает, почему простое «мешанье агентов» не работает: автор описывает ловушку 17x ошибок при суммировании неопределённостей и даёт рекомендации по проектированию кооперации и декомпозиции задач в реальных системах агентов — полезно для тех, кто строит распределённую логику и оркестрацию: почему мультиагенты терпят неудачу.
OpenClaw и их ассистенты начали строить собственную социальную сеть: это не просто шуточный эксперимент — это поле для изучения взаимодействия, эмергентного поведения и модулей доверия между ботами, что ставит новые вопросы для модерации и оценки автоматизированных обществ: OpenClaw строит соцсеть.
AI2 представила SERA — «мягко верифицированных» кодовых агентов, обученных супервизированно для автоматизации задач на уровне репозитория; это практичная альтернатива агрессивному самодостаточному автокоду, где контроль и воспроизводимость важнее «магии» генерации: AI2 выпустила SERA.
Карлос Гестрин в твите анонсирует возможность обучения с подкреплением с естественной языковой обратной связью (SDPO), где сообщения об ошибках или суждения LLM выступают в роли награды — идею, которую стоит пробовать там, где скалярные вознаграждения слабо коррелируют с желаемым поведением: SDPO и языковая обратная связь.
Amazon показывает, как превратить LLM в автоматического «судью» при оценке генеративных моделей: интеграция Amazon Nova в SageMaker AI позволяет стандартизировать субъективные метрики и упростить A/B‑оценку качества генераций в пайплайне: Nova LLM как судья.
Если вам нужно распаковать инференс в регионы с жёсткой латентностью и локальными требованиями, AWS демонстрирует кросс-региональный инференс Anthropic Claude 4.5 через Bedrock — практичный путь для масштабирования сервисов в новых географиях: Bedrock кросс-региональный инференс.
Для тех, кто строит ModelOps, Amazon подготовил шаблоны на основе S3 для SageMaker AI Projects — это уменьшает рутинную работу по созданию CI/CD для моделей и ускоряет запуск повторяемых проектов: SageMaker S3‑шаблоны для ModelOps.
NVIDIA развивает экосистему разрежённых вычислений: концепция «универсального разрежённого тензора» обещает согласованный стек для спарс-оптимизаций на разных фреймворках и железе, что может серьёзно сократить стоимость тяжёлых моделей при сохранении качества: универсальный разрежённый тензор.
Одновременно NVIDIA опубликовала практические рекомендации по безопасной «песочнице» для агентных рабочих процессов: чек-листы по ограничению исполнения, контролю побочных эффектов и оценке рисков пригодятся инженерам, которые запускают автопилоты и экзекуторы с внешними действиями: безопасность для агентных рабочих процессов.
Для разработчиков на GPU — обновление по инструментам: CUDA Tile IR как бэкенд для OpenAI Triton открывает новые возможности оптимизации компиляции и эффективности ядров, что прямо влияет на скорость обучения и инференса кастомных операторов: CUDA Tile IR для Triton.
Наконец, стартап Physical Intelligence привлекает внимание, работая над «мозгами» для роботов, где акцент на физически осмысленных контроллерах и интеграции сенсорики обещает реальную робототехнику, а не только демо‑поведения в лаборатории: Physical Intelligence строит робо‑мозги.
Коротко о значимом: новые практики верификации и оценки (SERA, Nova), улучшение инфрастуктуры для масштабирования и латентности (Bedrock, SageMaker), а также инструменты для оптимизации и безопасности (универсальные спарс‑тензоры, CUDA Tile IR и рекомендации по песочницам) постепенно переводят ИИ из прототипов в надёжные продуктивные системы. Интересно наблюдать, как реальные продукты (от марсохода до соцсети ботов) проверяют идеи, которые ещё год назад казались академическими.
