Один із найбільших репозиторіїв наукових препринтів запроваджує однорічний бан для дослідників, які подають статті з очевидними ознаками некоригованого ШІ-тексту. Йдеться не про сам факт використання мовних моделей, а про те, що автор не перечитав роботу перед відправленням.

Що таке ArXiv і чому це важливо
ArXiv — відкритий репозиторій препринтів, де дослідники публікують роботи з фізики, математики та інформатики ще до рецензування. Понад три десятиліття він є головним каналом поширення наукових результатів у цих галузях.
Статті з ArXiv читають, цитують і спираються ще до виходу в наукових журналах. Тому вигадані посилання на платформі можуть поширюватися в науковій літературі так само швидко, як і в рецензованих виданнях.
Що саме порушує правила
Голова секції комп’ютерних наук Томас Дітерих оголосив, що підставою для бану є «незаперечні докази» некоригованого використання мовної моделі. Конкретні приклади: вигадані посилання, що не відповідають жодній реальній публікації, службові інструкції чатбота, залишені в тексті, й таблиці-заглушки з нотатками на кшталт: «Заповни реальними числами зі свого експерименту».
Після підтвердження порушення головою секції автор отримує річний бан. Після його завершення всі наступні роботи дослідника зможуть потрапити на платформу лише після прийняття до рецензованого журналу.
Масштаб проблеми
Дослідники Колумбійського університету перевірили 2,5 млн біомедичних статей і 126 млн посилань у PubMed Central. Виявилося, що кількість фальшивих цитувань зросла у дванадцять разів із 2023 по 2026 рік. Якщо у 2023-му підроблене посилання траплялося приблизно в одній статті з 2828, то за перші сім тижнів 2026 року — вже в одній із 277.
Автори дослідження пов’язують стрибок із поширенням ШІ-інструментів для написання текстів. Попередні роботи свідчать, що від 30 до 69 відсотків посилань, згенерованих мовними моделями в біомедицині, є вигаданими.
Принцип, а не технологія
Нові правила свідомо не зачіпають питання про те, чи можна взагалі користуватися ШІ-інструментами у написанні наукових робіт. ArXiv таргетує лише найочевидніші порушення, які можна встановити безпосередньо з тексту, не покладаючись на ненадійні детектори ШІ-контенту.
За словами Томаса Дітериха, принцип простий: якщо ви подаєте статтю, ви відповідаєте за кожне слово в ній. Мовні моделі зробили надзвичайно легким виробництво тексту, що виглядає як наука, але не містить нічого по суті. Бан на рік — відносно скромна санкція, однак перша формальна відповідь великої наукової платформи на проблему, яка стрімко набирає обертів.
Джерело: thenextweb.com