ArXiv запрещает исследователям публиковать статьи, созданные с помощью ИИ

ArXiv применяет строгие наказания к исследователям, загружающим статьи, наполненные контентом, созданным искусственным интеллектом, с галлюцинаторными данными и непроверенными результатами LLM.
ArXiv, одна из наиболее широко уважаемых платформ для препринтных академических исследований, вводит более строгие меры правоприменения для борьбы с растущей проблемой некачественного контента, созданного искусственным интеллектом, который заполоняет ее серверы. Академическое сообщество все больше обеспокоено статьями, которые содержат значительное количество того, что исследователи называют «отбросами искусственного интеллекта» — текстом, созданным с помощью больших языковых моделей без надлежащего человеческого анализа, проверки или контроля качества.
Платформа объявила о новой дисциплинарной политике, направленной на то, чтобы привлечь исследователей к ответственности за достоверность своих материалов. В соответствии с этими расширенными правилами авторы, отправляющие статьи с «неопровержимыми доказательствами» того, что они не смогли адекватно оценить результаты генерации LLM, столкнутся с серьезными последствиями. К таким доказательствам относятся галлюцинаторные ссылки (цитаты на несуществующие статьи или исследования) и метакомментарии, случайно оставленные системами искусственного интеллекта, которые должны были быть удалены во время редактирования.
По словам Томаса Диттериха, возглавляющего секцию информатики ArXiv, исследователям, признанным виновными в отправке такой некачественной работы, будет запрещено загружать новые статьи на платформу в течение целого года. Это представляет собой значительное усиление усилий по модерации ArXiv и демонстрирует приверженность платформы поддержанию научных стандартов. Годовой запрет служит одновременно наказанием и сдерживающим фактором для других исследователей, которые могут подумать о сокращении своих научных работ.
Помимо временного запрета, ArXiv ввел дополнительное требование, которое значительно усложнит подачу будущих заявок для повторных нарушителей. Как только исследователи снова получат право подавать статьи после годичного отстранения, им необходимо будет убедиться, что любые новые заявки сначала принимаются в «авторитетном рецензируемом месте». Это дополнительное требование фактически не позволяет исследователям использовать ArXiv в качестве основного или единственного места для публикации своих работ, вынуждая их проходить строгую рецензирование в авторитетных журналах, прежде чем публиковать свои исследования на платформе препринтов.
Такой подход двойного наказания отражает серьезность, с которой ArXiv относится к проблеме научного контента, создаваемого искусственным интеллектом. Платформа ясно изложила свою позицию в официальных заявлениях: в Кодексе поведения организации прямо указано, как авторы должны нести ответственность за контент, который они публикуют под своим именем. Подписывая свое имя под публикацией, исследователи утверждают, что они тщательно рассмотрели и проверили каждый элемент своей работы, от методологии до выводов и цитат.
Этот шаг происходит в то время, когда академическое сообщество сталкивается с беспрецедентными проблемами, связанными с искусственным интеллектом. Поскольку большие языковые модели стали более сложными и доступными, некоторые исследователи начали использовать их для создания целых разделов статей, иногда без надлежащего человеческого контроля. Хотя инструменты искусственного интеллекта могут быть полезны для подготовки первоначального контента, организации идей или даже помощи в обзорах литературы, они также могут генерировать убедительно звучащую, но полностью сфабрикованную информацию — явление, известное как «галлюцинация».
<изображение src="https://platform.theverge.com/wp-content/uploads/sites/2/2025/05/STKS511_AI_SLOP_C.jpg?quality=90&strip=all&crop=0.95588235294118%2C0%2C98.088235294118%2C100&w=2400" alt="Ученый-исследователь проверяет точность и достоверность научных статей, созданных с помощью ИИ" />Проблема галлюцинаторных отсылок стала особенно острой. Магистр права может с уверенностью цитировать статью, которая звучит правдоподобно, но на самом деле никогда не была написана, или приписывать цитаты исследователям, которые никогда не делали таких заявлений. Ничего не подозревающих читателей эти ложные цитаты могут сбить с толку, искажая будущие исследования, основанные на мошеннических ссылках. Кроме того, некоторые исследователи обнаружили метакомментарии, созданные искусственным интеллектом (внутренние заметки или системные подсказки), которые случайно остались в окончательных версиях поданных статей, что делает очевидным, что автор не смог должным образом просмотреть созданный компьютером контент.
Механизм контроля ArXiv будет зависеть от бдительности сообщества и проверки модераторов. Платформа поощряет коллег-исследователей отмечать подозрительные статьи, а команда модераторов ArXiv будет расследовать заявления о том, что статьи содержат доказательства неадекватной проверки LLM. Учитывая объем статей, подаваемых в ArXiv каждый день (ежедневно поступают тысячи статей по всем научным дисциплинам), это представляет собой серьезную задачу, которая потребует как технологических решений, так и человеческого суждения.
Последствия этой политики выходят за рамки отдельных исследователей. Университетам, исследовательским институтам и финансирующим агентствам, возможно, придется пересмотреть то, как они оценивают и стимулируют результаты исследований. Если исследователи столкнутся с серьезными последствиями за отправку работ, созданных с помощью ИИ, на основные платформы препринтов, на них будет оказываться более сильное давление, требующее соблюдения строгих стандартов. В конечном итоге это может принести пользу всему научному предприятию, гарантируя, что данные исследований останутся надежными и заслуживающими доверия.
Однако эта политика также поднимает важные вопросы о том, как отличить правильное использование инструментов ИИ от неуместной небрежности. Многие исследователи на законных основаниях используют помощников по написанию с искусственным интеллектом, чтобы улучшить ясность, грамматику и организацию текста. Ключевое различие заключается в проверке и подотчетности: исследователи, использующие инструменты ИИ, должны тщательно проверять результаты, проверять факты и обеспечивать точность цитат. Политика ArXiv нацелена на тех, кто явно не проводил эту работу по проверке, а не на тех, кто использует ИИ в качестве законного исследовательского инструмента.
Это объявление было встречено общим одобрением со стороны академического сообщества, хотя некоторые выразили обеспокоенность по поводу реализации и возможных ложных срабатываний. Как модераторы смогут окончательно доказать, что автор «не проверял» контент, созданный LLM? А как насчет крайних случаев, когда текст, сгенерированный ИИ, оказывается точным? ArXiv необходимо будет разработать четкие рекомендации и предоставить своей команде модераторов достаточную подготовку, чтобы принимать такие решения справедливо и последовательно.
В перспективе эта политика может вдохновить другие академические платформы и журналы на разработку собственных правил в отношении контента, создаваемого искусственным интеллектом. По мере того, как искусственный интеллект все больше интегрируется в исследовательский процесс, академическому сообществу необходимо будет разрабатывать детальные подходы, позволяющие использовать потенциал ИИ и одновременно защищать от его рисков. Решительные действия ArXiv представляют собой важный шаг в этом направлении, посылая четкий сигнал о том, что ярлыки и халатность имеют реальные последствия и что целостность научных данных остается первостепенной задачей.
Источник: The Verge


