Этические и юридические вопросы, поднятые в учебной литературе по ChatGPT

Исследователи из Калифорнийского университета в Беркли говорят, что ChatGPT запомнил большое количество произведений, защищенных авторскими правами, и что включение таких данных может внести необъективность в аналитику, проводимую с помощью моделей OpenAI.

Кент Чанг из Беркли, Маккензи Крамер, Сандип Сон и Дэвид Бамман сообщили о своих выводах 28 апреля в статье на сервере препринтов arXiv под названием «Говори, память: археология книг, известных ChatGPT/GPT-4».

Хотя разоблачение сразу же поднимает вопросы о защите прав собственности и авторских прав, основные интересы исследователей заключаются в прозрачности и возможности невидимых предубеждений, когда те, кто полагаются на OpenAI, остаются в неведении относительно того, какие источники были включены и исключены из ввода.

«Мы обнаружили, что модели OpenAI запоминают обширную коллекцию материалов, защищенных авторским правом, и что степень запоминания связана с частотой, с которой отрывки из этих книг появляются в сети», — говорят исследователи.

«Способность этих моделей запоминать неизвестный набор книг усложняет оценку достоверности измерений для культурной аналитики, загрязняя тестовые данные», — предупредили они.

Например, исследователи отметили, что книги научной фантастики и фэнтези преобладают в списке запоминаемых книг, что свидетельствует о встроенной предвзятости в отношении характера ответов, которые может дать ChatGPT.

«Точность таких моделей сильно зависит от частоты, с которой модель видит информацию в обучающих данных, что ставит под сомнение их способность к обобщению», — сказали они. Такие модели «представляют собой проблему», когда дело доходит до проверки результатов, поскольку мало кто знает подробности о данных, используемых для обучения моделей.

«Знание того, на каких книгах обучалась модель, имеет решающее значение для оценки таких источников предвзятости», — сказали они.

«Наша работа здесь показала, что модели OpenAI знают о книгах пропорционально их популярности в Интернете».

Работы, обнаруженные в исследовании Беркли, включают «Гарри Поттер», «1984», «Властелин колец», «Голодные игры», «Автостопом по галактике», «451 градус по Фаренгейту», «Игра престолов» и «Дюна». .»

В то время как ChatGPT оказался достаточно осведомленным о произведениях, находящихся в общественном достоянии , менее известные работы, такие как Global Anglophone Literature — чтение, предназначенное для чтения за пределами основных англоязычных стран, включая Африку, Азию и Карибский бассейн — были в значительной степени неизвестны. Также были упущены из виду работы лауреатов премии Black Book Interactive Project и Black Caucus Library Association.

«Мы должны подумать о том, чей повествовательный опыт закодирован в этих моделях, и как это влияет на другие модели поведения», — написал в недавнем твите Бамман, один из исследователей из Беркли. Он добавил: «Популярные тексты, вероятно, не являются хорошим барометром производительности модели [учитывая] уклон в сторону научной фантастики / фэнтези».

Исследователи заявили, что их результаты говорят в пользу использования открытых моделей, раскрывающих обучающие данные.

Между тем, в ближайшем будущем вероятны серьезные юридические проблемы. Каковы ограничения «добросовестного использования» при копировании текста? Кому принадлежат авторские права на текст, полностью или частично сгенерированный ChatGPT? Кто побеждает, когда защита авторских прав испрашивается для нескольких похожих или идентичных результатов несколькими сторонами?

И, возможно, более интересный вопрос: все ли машинные языки защищены авторским правом?

Некоторые могут вспомнить знаменитый случай «селфи макаки», когда обезьяна сфотографировала себя с помощью оборудования, оставленного профессиональным фотографом. Фотограф подал в суд на издания, в которых использовались захватывающие фотографии, но они утверждали, что, поскольку фотограф не делал фотографии, он не может требовать защиты авторских прав. PETA утверждала, что авторские права должны принадлежать обезьяне.

Годы судебных баталий привели к постановлению 2018 года, подтверждающему, что нечеловеческие существа не имеют права заявлять авторские права.

Будет ли это распространяться на литературу по ChatGPT?