Модель искусственного интеллекта Mythos от Anthropic попала в руки неавторизованным пользователям

Тщательно охраняемая модель искусственного интеллекта Claude Mythos от Anthropic, к которой предположительно получили доступ неавторизованные пользователи, несмотря на ограничения безопасности. Подробности о нарушении.
Нанося серьезный удар по своей тщательно управляемой продуктовой стратегии, Anthropic оказалась в центре серьезного затруднения с безопасностью, связанного с невыпущенной моделью искусственного интеллекта Claude Mythos. Компания потратила значительное время и ресурсы на поддержание строгого контроля над доступом к этой передовой системе искусственного интеллекта, ссылаясь на риски кибербезопасности в качестве основного оправдания ее ограниченного развертывания. Однако недавние отчеты свидетельствуют о том, что, несмотря на эти меры предосторожности, неавторизованные лица получили доступ к модели, что подрывает концепцию безопасности организации и поднимает серьезные вопросы о ее методах операционной безопасности.
Согласно сообщению Bloomberg, небольшая группа неавторизованных пользователей, очевидно, получила доступ к Mythos с того дня, как Anthropic сделала свое первое публичное заявление о планах предлагать модель через контролируемые каналы. Это открытие произошло в особенно неловкий момент, поскольку компания публично подчеркивала, насколько мощными и потенциально опасными являются возможности кибербезопасности модели, используя этот аргумент в качестве оправдания того, почему более широкий публичный доступ нецелесообразен на данном этапе разработки.
Нарушение Mythos представляет собой каскадную серию сбоев в инфраструктуре безопасности и управлении информацией Anthropic. Существование модели ранее было раскрыто благодаря тому, что компания охарактеризовала как пробел в безопасности, что позволяет предположить, что внутренний контроль над конфиденциальной информацией о продуктах был существенно скомпрометирован. Когда компания, созданная специально для разработки безопасных и надежных систем искусственного интеллекта, сталкивается с многочисленными нарушениями, связанными с ее флагманскими продуктами, это создает кризис доверия, который выходит далеко за рамки непосредственного инцидента.
Время этого инцидента особенно вредно для более широкой концепции Anthropic о безопасности ИИ и практиках ответственной разработки. Компания позиционирует себя как продуманную альтернативу другим организациям, занимающимся искусственным интеллектом, подчеркивая свою приверженность обеспечению безопасности и контролируемого развертывания мощных систем. Когда неавторизованные пользователи получают доступ к тем самым системам, которые, по утверждению компании, слишком опасны для публичного распространения, это создает логическую несогласованность, которой критики быстро пользуются. Аргумент компании о том, что Mythos должен оставаться ограниченным, теряет убедительность, когда модель одновременно доступна неизвестным внешним сторонам.
Отраслевые обозреватели отмечают иронию, присущую этой ситуации. Anthropic потратил недели, формулируя подробные аргументы о том, почему возможности кибербезопасности, встроенные в Mythos, затрудняют публичную доступность. Компания предположила, что злоумышленники потенциально могут злоупотребить такими расширенными возможностями во вредных целях, что потребует ограниченной бета-программы с тщательно проверенными пользователями. Однако нарушение показывает, что собственные меры безопасности Anthropic оказались недостаточными для защиты той самой системы, о которой компания предупреждала общественность.
Инцидент несанкционированного доступа также вызывает вопросы о масштабах и характере нарушения. Сколько неавторизованных пользователей получили доступ? Какова была продолжительность их доступа? Имелись ли средства защиты или журналы использования, которые могли бы определить, что эти пользователи пытались использовать с моделью? Эти оперативные детали остаются неясными, но их важность невозможно переоценить, поскольку они определяют фактическую подверженность риску, создаваемому этим сбоем в системе безопасности.
<изображение src="https://platform.theverge.com/wp-content/uploads/sites/2/chorus/uploads/chorus_asset/file/23318433/akrales_220309_4977_0182.jpg?quality=90&strip=all&crop=0%2C0%2C100%2C100&w=2400" alt="Протоколы безопасности модели AI и архитектура систем контроля доступа" />С конкурентной точки зрения этот инцидент может дать преимущества конкурентам Anthropic в пространстве генеративного искусственного интеллекта. В то время как Anthropic тщательно контролирует доступ и формирует ожидание вокруг Mythos, другие организации, разрабатывающие конкурирующие модели, избегают негативной огласки, связанной с нарушениями безопасности. Сама история взлома может затмить реальные возможности модели, которые независимые рецензенты, очевидно, сочли действительно впечатляющими до инцидента с несанкционированным доступом.
Раскрытие информации об этом нарушении в средствах массовой информации, а не по официальным каналам компании, позволяет предположить, что Anthropic, возможно, не была полностью прозрачна в отношении инцидента, по крайней мере, не сразу. Когда нарушения безопасности становятся достоянием общественности благодаря журналистике, а не официальному раскрытию, это подрывает доверие к компании в отношении методов обеспечения безопасности и поднимает вопросы о том, поставило ли руководство приоритетом управление репутацией над быстрым и честным общением с заинтересованными сторонами.
В перспективе этот инцидент, скорее всего, повлечет за собой серьезные внутренние проверки в Anthropic относительно контроля доступа, протоколов информационной безопасности и процедур реагирования на инциденты. Компании потребуется внедрить более надежные системы защиты невыпущенных продуктов и связанной с ними информации. Кроме того, организации, возможно, придется пересмотреть свои публичные заявления о том, почему определенные возможности ИИ должны оставаться ограниченными, поскольку выявлен разрыв между публичными сообщениями и реальными результатами в области безопасности.
Инцидент антропной безопасности служит предостережением для других организаций, занимающихся разработкой искусственного интеллекта, работающих над передовыми системами. Поскольку компании в этой космической гонке разрабатывают и внедряют все более совершенные модели, безопасность должна оставаться первостепенной задачей не только во внешних коммуникациях, но и в реальной оперативной практике. Доверие к любой организации, позиционирующей себя как ориентированная на безопасность, полностью зависит от ее способности реально внедрять и поддерживать строгие меры безопасности.
Для пользователей и потенциальных клиентов продуктов Anthropic это нарушение поднимает важные вопросы о том, какой уровень контроля доступа и безопасности можно реально поддерживать в современных системах искусственного интеллекта. Если неавторизованные пользователи могут получить доступ к тщательно охраняемым моделям, несмотря на явные меры безопасности, что это означает для жизнеспособности сохранения ограниченного доступа в долгосрочной перспективе? Это сложные вопросы, с которыми придется столкнуться индустрии искусственного интеллекта по мере того, как системы станут более мощными и ценными.
Более широкие последствия этого инцидента распространяются на нормативные дискуссии по вопросам управления и безопасности ИИ. Политики и регуляторы стремятся к тому, чтобы авторитетные компании, занимающиеся искусственным интеллектом, продемонстрировали, что надежные методы обеспечения безопасности осуществимы и поддерживаемы. Когда такая компания, как Anthropic, которая позиционирует себя как лидер в области ответственной разработки ИИ, сталкивается с громким нарушением, это дает повод для тех, кто утверждает, что для обеспечения безопасности ИИ необходимы комплексное регулирование и государственный надзор.
По мере развития ситуации наблюдатели будут внимательно следить за тем, как Anthropic отреагирует на этот вызов. Действия компании в ближайшие недели и месяцы, в том числе то, насколько прозрачно она решит проблему взлома, какие конкретные шаги она предпримет для повышения безопасности и как она скорректирует свои публичные сообщения о безопасности ИИ, вероятно, будут формировать репутацию компании и ее положение в более широком сообществе ИИ на долгие годы вперед. Этот инцидент демонстрирует, что в мире высоких ставок, связанных с передовыми разработками искусственного интеллекта, сбои в системе безопасности имеют огромные последствия, выходящие далеко за рамки непосредственной технической проблемы.
Источник: The Verge


