Программное обеспечение для обработки естественного языка оценивает научные эссе средней школы

У студентов скоро может быть еще один учитель в классе, но из маловероятного источника: искусственного интеллекта (ИИ). В двух недавних работах ученые-компьютерщики из Пенсильванского университета проверили эффективность формы ИИ, известной как обработка естественного языка, для оценки и предоставления отзывов о научных эссе студентов. Они подробно описали свои результаты в издательском отделе конференции Международного общества научных исследований в области обучения (ISLS ) и в Трудах Международной конференции по искусственному интеллекту в образовании (AIED).

По словам главного исследователя Ребекки Пассонно, профессора информатики и инженерии штата Пенсильвания, обработка естественного языка — это область компьютерных наук, в которой исследователи преобразуют письменные или устные слова в вычисляемые данные.

Под руководством Пассонно исследователи, работавшие над статьей ISLS, расширили возможности существующего инструмента обработки естественного языка под названием PyrEval для оценки идей в письме учащихся на основе заранее определенных вычислимых критериев. Новое программное обеспечение они назвали PyrEval-CR.

«PyrEval-CR может предоставить учащимся средней школы немедленную обратную связь по их научным эссе, что снимает большую часть бремени оценки с учителя, так что больше письменных заданий может быть интегрировано в учебные программы средней школы», — сказал Пассонно. «Одновременно программное обеспечение создает сводный отчет по темам или идеям, представленным в эссе из одного или нескольких классов, поэтому учителя могут быстро определить, действительно ли ученики поняли урок науки».

Начало PyrEval-CR восходит к 2004 году, когда Пассонно работал с сотрудниками над разработкой метода пирамиды , когда исследователи вручную аннотируют исходные документы, чтобы надежно ранжировать письменные идеи по их важности. Начиная с 2012 года Пассонно и ее аспиранты работали над автоматизацией Pyramid, что привело к созданию полностью автоматизированного PyrEval, предшественника PyrEval-CR.

Исследователи проверили функциональность и надежность PyrEval-CR на сотнях реальных научных эссе средней школы из государственных школ штата Висконсин. Садхана Пунтамбекар, профессор педагогической психологии в Университете Висконсин-Мэдисон и соавтор обеих статей, наняла учителей естественных наук и разработала учебную программу. Она также предоставила исторические данные студенческих сочинений, которые были необходимы для разработки PyrEval-CR перед его развертыванием в классах.

«В PyrEval-CR мы создали ту же модель, которую PyrEval создал бы из нескольких отрывков опытных писателей, но расширили ее, чтобы согласовать с любой рубрикой, имеющей смысл для конкретной подсказки эссе», — сказал Пассонно. «Мы провели множество экспериментов по тонкой настройке программного обеспечения, а затем подтвердили, что оценка программного обеспечения очень сильно коррелирует с оценкой по ручной рубрике, разработанной и применяемой в лаборатории Пунтамбекара».

В документе AIED исследователи сообщают технические подробности того, как они адаптировали программное обеспечение PyrEval для создания PyrEval-CR. По словам Пассонно, большая часть программного обеспечения разработана в виде набора модулей или строительных блоков, каждый из которых выполняет свою функцию.

Один из модулей PyrEval автоматически создает модель оценивания, называемую пирамидой, из четырех-пяти справочных текстов, написанных на ту же подсказку, что и студенческие эссе. В новом PyrEval-CR модель оценивания или вычисляемая рубрика создается полуавтоматически еще до того, как учащиеся получат приглашение на эссе.

«PyrEval-CR упрощает работу учителей в реальных классах, которые используют рубрики, но у которых обычно нет ресурсов, чтобы создать свою собственную рубрику и проверить, может ли она использоваться разными людьми и получать одинаковую оценку работы учащихся», — сказал Пассонно.

Согласно Пассонно, чтобы оценить эссе, предложения студентов должны быть сначала разбиты на отдельные предложения, а затем преобразованы в последовательности чисел фиксированной длины, известные как векторы. Чтобы зафиксировать значение предложений при их преобразовании в векторы, используется алгоритм, называемый взвешенной текстовой матричной факторизацией. Пассонно сказал, что алгоритм улавливает существенные сходства значений лучше, чем другие протестированные методы.

Исследователи адаптировали другой алгоритм, известный как взвешенный максимальный независимый набор, чтобы гарантировать, что PyrEval-CR выбирает лучший анализ данного предложения.

«Есть много способов разбить предложение, и каждое предложение может быть сложным или простым утверждением», — сказал Пассонно. «Люди узнают, похожи ли два предложения, прочитав их. Чтобы имитировать этот человеческий навык, мы преобразуем каждую идею рубрики в векторы и строим график, где каждый узел представляет совпадения вектора ученика с векторами рубрики, чтобы программа могла найти оптимальная интерпретация студенческого эссе ».

В конце концов, исследователи надеются развернуть программное обеспечение для оценки в классах, чтобы сделать назначение и оценку научных эссе более практичными для учителей.

«Благодаря этому исследованию мы надеемся помочь учащимся учиться на уроках естествознания, предоставить им достаточную поддержку и обратную связь, а затем отступить, чтобы они могли учиться и достигать собственных результатов», — сказал Пассонно. «Цель состоит в том, чтобы позволить преподавателям STEM легко внедрять письменные задания в свои учебные программы».