Sqbconsulting.uz

Эксклюзив: White Circle привлек $11 млн, чтобы ИИ в офисе не выходил из‑под контроля

Эксклюзив: White Circle привлек $11 млн, чтобы ИИ в офисе не выходил из‑под контроля

Білий круг логотип стартап AI

Одним вечером в конце 2024 года Денис Шилов смотрел криминальный триллер и внезапно придумал формулировку, которая, как ему показалось, способна обойти защитные фильтры практически у всех ведущих AI‑моделей.

Эта формулировка оказалась тем, что исследователи называют универсальным джейлбрейком: её можно было повторно применять, чтобы вынудить разные модели игнорировать собственные ограничения и выдавать опасные или запрещённые ответы — например, инструкции по изготовлению наркотиков или созданию оружия. Логика была простой: Шилов просил систему перестать быть «чат-ботом с правилами безопасности» и вести себя как API‑эндпоинт — программный механизм, который автоматически принимает запрос и возвращает ответ. Такая подмена роли превращала задачу модели в «просто ответить», а не оценивать, следует ли отклонять запрос, и из‑за этого крупнейшие модели начинали соглашаться с теми вопросами, которые должны были отвергать.

Шилов рассказал об этом в X, и уже к следующему утру публикация стала вирусной.

Вместе с вниманием в соцсетях пришло и приглашение от компании Anthropic протестировать их модели в закрытом режиме — и тогда Шилов понял, что проблема шире, чем поиск отдельных «плохих» промптов. По его словам в разговоре с Fortune, компании всё активнее встраивают AI‑модели в рабочие процессы, но у них почти нет способов управлять поведением этих систем, когда реальные пользователи начинают с ними взаимодействовать.

«Джейлбрейки — это лишь часть истории, — сказал Шилов. — Люди могут вести себя неправильно множеством способов, и модели тоже могут. А поскольку эти модели очень умные, они способны нанести куда больше вреда».

White Circle — парижская платформа для контроля AI, которая уже привлекла $11 млн, — стала ответом Шилова на новую волну рисков, возникающих, когда модели используются в корпоративных сценариях.

Стартап создаёт программный слой, который располагается между пользователями компании и её AI‑моделями, проверяя входы и выходы в режиме реального времени на соответствие внутренним политикам. Раунд seed финансирования поддержали, среди прочих, Ромен Юэ (руководитель developer experience в OpenAI), Дюрк Кингма (сооснователь OpenAI, ныне в Anthropic), Гийом Лампль (сооснователь и главный научный сотрудник Mistral) и Томас Вулф (сооснователь и chief science officer Hugging Face).

White Circle сообщил, что инвестиции пойдут на расширение команды, ускорение разработки продукта и рост клиентской базы в США, Великобритании и Европе. Сейчас в компании 20 сотрудников, распределённых между Лондоном, Францией, Амстердамом и другими точками Европы; по словам Шилова, почти все — инженеры.

Слой контроля в реальном времени для корпоративного AI

Ключевой продукт White Circle — это исполнительный слой для AI‑приложений, работающий в реальном времени. Если пользователь пытается сгенерировать вредоносный код, мошеннические сценарии или иной запрещённый контент, система способна пометить или заблокировать запрос. Если же модель начинает галлюцинировать, раскрывать конфиденциальные данные, обещать возвраты средств, которые не может оформить, или предпринимать разрушительные действия внутри программной среды, платформа White Circle, по её словам, тоже может это обнаружить.

«Мы действительно принуждаем к корректному поведению, — сказал Шилов. — Лаборатории моделей делают настройку безопасности, но она очень общая и обычно сводится к тому, чтобы модель не отвечала на вопросы про наркотики и биологическое оружие. А в продакшене возникает гораздо больше потенциальных проблем».

White Circle исходит из того, что безопасность AI нельзя полностью «закрыть» только этапом обучения. По словам Шилова, по мере того как бизнес встраивает модели в продукты, важен уже не абстрактный вопрос, смогут ли OpenAI, Anthropic, Google или Mistral сделать модели в целом безопаснее; куда важнее, сможет ли медицинская компания, банк, юридическое приложение или платформа для разработчиков ограничить допустимые действия AI в собственной среде.

Когда компании переходят от чат‑ботов к автономным AI‑агентам, которые пишут код, серфят веб, получают доступ к файлам и выполняют действия от имени пользователя, риск‑профиль резко расширяется, отметил Шилов. Например, бот поддержки может пообещать компенсацию, на которую у него нет полномочий, агент для программирования — установить опасный пакет на виртуальную машину, а модель внутри финтех‑приложения — неправильно обработать чувствительные данные клиентов.

Чтобы снижать такие риски, Шилов считает, что организациям, использующим базовые модели, нужно самим определять и обеспечивать соблюдение того, что означает «правильное поведение AI» внутри их продукта, а не полагаться только на тестирование безопасности со стороны AI‑лабораторий. White Circle утверждает, что её платформа обработала более миллиарда API‑запросов и уже применяется стартапом Lovable из сферы vibe‑coding, а также несколькими финтех‑ и юридическими компаниями.

Ставка на исследования и независимую проверку

Шилов считает, что у поставщиков моделей есть противоречивые стимулы создавать тот самый слой контроля в реальном времени, который предлагает White Circle.

По его словам, AI‑компании продолжают взимать плату за входные и выходные токены даже тогда, когда модель отказывает в опасном запросе, и это снижает финансовую мотивацию отсекать злоупотребления до того, как они дойдут до модели. Он также упомянул так называемый alignment tax — идею о том, что дополнительное обучение ради безопасности иногда ухудшает производительность на задачах вроде программирования.

«У них есть очень интересный выбор: обучать модели более безопасными и защищёнными или делать их более производительными, — сказал Шилов. — И ещё остаётся вопрос доверия. Почему вы должны доверять Anthropic оценивать ответы модели Anthropic?»

Исследовательское направление White Circle также пытается наглядно показывать новые классы рисков.

В мае компания опубликовала KillBench — исследование, в котором было проведено более миллиона экспериментов на 15 AI‑моделях, включая разработки OpenAI, Google, Anthropic и xAI, чтобы проверить, как системы ведут себя, когда их вынуждают принимать решения о человеческих жизнях.

В экспериментах моделям предлагали выбирать между двумя вымышленными людьми в сценариях, где один должен умереть; при этом в промптах менялись такие детали, как национальность, религия, комплекция или бренд телефона. White Circle заявила, что результаты показали: модели выбирают по‑разному в зависимости от этих характеристик, что указывает на скрытые предвзятости, способные проявляться в условиях высокой ставки, даже если в обычных диалогах системы выглядят нейтральными. Компания также отметила, что эффект усиливался, когда от моделей требовали отвечать в машиночитаемом формате — например, выбирать из фиксированных вариантов или заполнять форму, что часто используется при интеграции AI в реальные продукты.

Такие исследования помогают White Circle позиционировать себя как внешнюю «проверку» того, как модели ведут себя после выхода из лаборатории.

«У Дениса и команды White Circle необычное сочетание глубокой технической убедительности и ясного коммерческого чутья, — сказала Офелия Цай, партнёр Tiny VC. — Одно только исследование KillBench показывает, что возможно, если подходить к безопасности AI эмпирически».

Эта история первоначально была опубликована на Fortune.com

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *