Исследователи из Редингского университета сгенерировали ответы экзамена по психологии при помощи ChatGPT на базе GPT-4 и отправили их своим коллегам, которые смогли определить только одну из 33 тестовых работ как созданную ИИ. В некоторых случаях работы ИИ получили более высокие оценки, чем реальные студенты.
Авторы отметили, что ИИ-инструменты, такие как ChatGPT, теперь проходят тест Тьюринга. Результаты работы моделей способны оказаться незамеченными опытными специалистами, отметили исследователи.
Учёные назвали это «крупнейшим и наиболее надёжным слепым исследованием в своём роде» с целью выяснить, могут ли преподаватели распознавать ответы, сгенерированные ИИ. Авторы предупредили, что это будет иметь серьёзные последствия для того, как университеты оценивают студентов.
Исследователи обнаружили, что 94% ответов ИИ остались незамеченными. Порядка 83,4% ответов ИИ получили более высокие оценки, чем случайно выбранная группа из того же количества ответов реальных студентов.
Исследование показывает, что понимание того, как ИИ повлияет на целостность образовательных оценок, имеет международное значение, отметил доцент Школы психологии и клинической лингвистики в Рединге и один из авторов работы Питер Скарф. Он добавил, что мировой образовательной сфере придётся развиваться в условиях существования ИИ.
Исходя из текущих тенденций, способность ИИ проявлять более абстрактное мышление будет увеличиваться, а выявляемость уменьшаться, проблема академической честности будет падать, резюмировали авторы работы.
Эксперты уже назвали результаты исследования концом для домашних экзаменов или курсовых работ без присмотра. Подобные опасения усилились после того, как во время пандемии COVID-19 многие университеты и школы перешли от контролируемых очных экзаменов к неконтролируемым экзаменам. Многие учебные заведения продолжают использовать такие модели.
Научная работа «A real-world test of artificial intelligence infiltration of a university examinations system: A “Turing Test” case study» опубликована 26 июня 2024 года в журнале PLOS One (DOI: 10.1371/journal.pone.0305354).
Источник новости: habr.com