бесплатно рефераты

бесплатно рефераты

 
 
бесплатно рефераты бесплатно рефераты

Меню

Методы и модели интеллектуального автоматизированного контроля знаний бесплатно рефераты

Для конкретного примера задаем N=250; AQL=10%; RQL=20%; QLЈ10%; a<b; степень II по ГОСТ Р50 779.72-99. Объем первой выборки n1 =20 и критерии принятия решений C1<5, C2=6. Для второй выборки применяем усиленное тестирование n1 =20, C3< 3, C4=4, а для нормального тестирования оставляем исходный план n2 =20, C1< 5, C2=6.

По первой выборке уровень тестирования принят нормальный (классификация), а тестируемые разделяются на две группы: y — недостаточная подготовка и Е — достаточная подготовка. По второй выборке (аттестация) для группы y тестирование производится по усиленному уровню (ужесточенному) и деление производится на два образа IV и III.

Для группы Е уровень остается нормальным, но время на выполнение заданий сокращается. Тестируемые делятся на два образа II и I. Из схемы видно, что по второй выборке тестируемые получают возможность на улучшение результата, что реально защищает их права на объективность оценивания уровня знаний. Далее имеем скрещивание частных законов, которые проявляются в мутации специфического закона тестирования о переходе количества неправильных ответов в качество знаний, проявляющихся в лингвистической форме. Риски (ошибки) попадания в образы по второй выборке α=0,03, β=0,16. Предельный процент тестируемых с низким уровнем знаний, но получивших положительные оценки QL=q0=10%. Разработаны также методы выделения «образов уровня знаний» и для количественного признака, когда каждое выполненное задание имеет количественное значение в диапазоне [0, 1000], однако рамки статьи не позволяют привести такие примеры.

Таким образом, использование информационно-генетических алгоритмов для выделения необходимых свойств образовательных тестов в форме законов тестирования и их реализация для выделения «образа уровня знаний» наглядно показывает необходимость дальнейших исследований по их применению для решения новых задач по оценке уровня знаний в предстоящих единых экзаменах с целью повышения их объективности, достоверности, эффективности и социальной значимости [13].


2.1.5 Модель Раша

 

Система тестирования на основе модели Раша обладает важными достоинствами, среди которых, прежде всего, необходимо отметить следующие.

Модель Раша превращает измерения, сделанные в дихотомических и порядковых шкалах в линейные измерения, в результате качественные данные анализируются с помощью количественных методов. Это позволяет использовать широкий спектр статистических процедур.

Оценка трудности тестовых заданий не зависит от выборки испытуемых, на которых была получена и, аналогично, оценка уровня знаний испытуемых не зависит от используемого набора тестовых заданий.

Пропуск данных для некоторых комбинаций (испытуемый — тестовое задание) не является критическим.

Сама система тестирования достаточно проста, по сравнению с другими аналогичными системами она характеризуется наименьшим числом параметров — только один параметр уровня знаний для каждого испытуемого и только один параметр трудности для каждого задания.

Модель Раша опирается на четкие и конструктивные понятия "трудность задания" и "уровень знаний". Так, одно задание считается более трудным, чем другое, если вероятность правильного ответа на первое задание меньше, чем на второе, независимо от того, кто их выполняет. Аналогично, более подготовленный студент имеет большую вероятность правильно ответить на все задания, чем менее подготовленный.

Благодаря простой структуре модели существуют удобные вычислительные процедуры для многоаспектной проверки адекватности модели: для всего набора тестовых результатов, для каждого испытуемого, для каждого задания и для каждого конкретного ответа.

"Остатки", получаемые при аппроксимации результатов тестирования моделью можно использовать для выделения различных типов испытуемых.

Однако, несмотря на 40-летний опыт применения этой системы тестирования за рубежом во многих областях знания, прежде всего в образовании, медицине и психологии, до сих пор продолжаются дискуссии об истинной ценности и эффективности системы тестирования на основе модели Раша. До сих пор существуют две крайние точки зрения на эту модель тестирования.

Наиболее убежденные сторонники модели Раша утверждают следующее: "Можно ли собрать или построить или сформулировать данные так, чтобы они соответствовали определению измерения (модели Раша)? Если нет, — то такие данные бесполезны".

Их наиболее последовательные оппоненты утверждают следующее: "Данные — это данные, а модель — это конструкция исследователя, которая подвержена ошибкам". Например, при построении регрессии, выбрасывая те или иные данные, можно получить любую зависимость, но мы тем самым ограничиваем реальный мир данных. Таким образом, мы создаем искусственную переменную, о которой мало что знаем.

Для практики одним из наиболее важных критериев является точность оценивания. Поэтому выбор темы в значительной степени обусловлен противоречивой информацией относительно точности системы тестирования на основе модели Раша. Кроме того, не удалось найти работы, в которых проведен всесторонний анализ точности модели Раша. В известных работах только даются те или иные общие рекомендации по использованию этих моделей.

Чем больше точность, тем лучше работает модель. В случае отсутствия ошибок измерения любая модель в смысле точности измерения работает идеально. Но на практике ошибки всегда есть и поэтому важно знать, насколько точные оценки позволяет получать та или иная модель.

На основе имитационного моделирования исследуются точность оценивания уровней знаний и трудностей заданий, а также число итераций, требуемых для вычисления этих оценок (методом наибольшего правдоподобия) в многофакторной ситуации в зависимости от:

·        диапазона уровней знаний испытуемых;

·        диапазона трудностей заданий;

·        степени соответствия диапазонов уровней знаний испытуемых и трудностей заданий;

·        числа испытуемых;

·        числа заданий;

·        степени соответствия данных модели;

·        доли пропущенных данных.

Для статистической обработки результатов моделирования используется многофакторный дисперсионный анализ [14].


2.1.6 Абсолютная временная шкала измерения знаний

Знания являются абсолютной субстанцией: они либо есть, либо их нет. По крайней мере, так считается в любой форме традиционного оценивания знаний — как на выпускных экзаменах в школах, так и на вступительных экзаменах в вузы. Поэтому интересно проанализировать возможности абсолютных шкал оценки и при переходе к измерению знаний на основе тестов.

В данных исследованиях изучаются возможности так называемой «абсолютной временной шкалы оценивания знаний». Формулируются ее принципы. Формулируются этапы последовательного перехода от традиционной формы экзаменов к тестовой форме этого подхода, на их основе – требования к созданию тестовых материалов этого подхода.

Анализируется опыт использования данного подхода на вступительных экзаменах в Тверском государственном университете на протяжении 4-х лет.

Изучается диагностический потенциал данного подхода. Формулируется принцип «трехуровнего абстрагирования» для диагностических тестирований. Ниже показана «диаграмма знаний» по математике, полученная в результате обработки данных тестирования выпускников одной из школ г.Твери (75 учащихся).

Здесь цифры по окружности – номера тем по математике, по радиусам отложена «успешность ответов» учащихся по той или иной теме.

Как видно, тестирование с использованием абсолютной шкалы оценки имеет ценность диагностическую даже более, чем для итоговых экзаменов.

Изучается уровень достоверности результатов компьютерного тестирования в данном подходе и соотношение «случайного» и «достоверного» в итоговой оценке. На рисунках приведена зависимость (в данном подходе) итоговой оценки по математике от времени тестирования:

Как видно, за все время тестирования (40 минут) в первые 15 минут (первые 4 задания по математике) оценка менялась наиболее заметно. За последние же 10 минут итоговая оценка изменялась не более чем на 10 баллов — доля «случайного» в итоговой оценке.

Таким образом, при использовании абсолютной шкалы данного подхода существует возможность ответить на вопросы: 1) существует ли предел, к которому сходится итоговая оценка с увеличением времени тестирования (или количества заданий теста); 2) какова погрешность «измерения знаний» если прервать тестирование в некоторый определенный момент, например через 40 минут.

Еще одно очевидное преимущество абсолютной шкалы оценивания – итоговая оценка появляется на экране компьютера сразу же после выполнения теста испытуемым [15].


2.1.7 Методика статистического анализа  качества обучения

Предлагаемая методика основывается на том, что учебный процесс является частным случаем технологического процесса и ему должны быть свойственны такие же методы анализа, какие приняты для производственных процессов. Однако слепо перенести подобные методики нельзя, особенно это касается содержательного анализа процесса.

Для того чтобы проанализировать учебный процесс нужно иметь, во-первых, критерий качества обучения, а, во-вторых, проследить его изменение во времени. В качестве наиболее информативного критерия качества обучения следует использовать степень обученности учащихся — СОУ. Этот критерий основан на статистике полученных учащимися оценок за выполнение отдельных заданий или контрольных работ. Оценки входят в СОУ с «весом» равным интегралу вероятности получения данной оценки для некоторого «типового» распределения оценок.

В качестве такого «типового» распределения используется стандартное распределение Гаусса с параметрами: среднее значение оценки — 4 и стандартное отклонение — 1,39 /1/. Такое распределение обладает одним особым свойством: для этого распределения значения СОУ и качественной успеваемости совпадают и составляют 0,64. Это свойство выделяет «типовое» распределение среди других распределений со средней оценкой 4.

Расчеты для «типового» распределения показывают, что если СОУ больше 0,76, то обученность «отличная», если СОУ от 0,5 до 0,76, то обученность «хорошая», если СОУ от 0,24 до 0,5, то обученность «удовлетворительная», если менее 0,24, то «неудовлетворительная».

Для оценки изменения СОУ во времени используется известная в математической статистике методика, связанная с критерием «3 s». Согласно этой методике, если какой либо процесс идет нормально, то отдельные значения должны укладываться в интервал «3s» относительно среднего значения (s — стандартное отклонение) с определенной точностью. Те значения, которые не укладываются в заданный интервал, являются отклонениями от стандартного распределения. Чем меньше таких отклонений, тем больше соответствие анализируемого распределения стандартному. Что касается применения этой методики для технологических процессов, то ее надо скорректировать — следует учитывать только те значения, которые выходят за нижнюю границу интервала.

Если взять отношение числа значений попадающих в интервал «3 s» к общему количеству значений, то такую величину можно назвать коэффициентом стандартности распределения, а в случае рассмотрения учебного процесса — коэффициентом отлаженности учебного процесса (КОУП). Расчеты показывают, что если значение КОУП больше 0,94, то процесс можно считать «отлично отлаженным», если КОУП от 0,84 до 0,94 — «хорошо отлаженным», если КОУП от 0,69 до 0,84 — «почти отлаженным», если менее 0,69 — «не отлаженным».

Для общей оценки учебного процесса можно перемножить среднее значение СОУ по предмету за год на КОУП. Полученную величину можно трактовать как фактор качества учебного процесса (ФКУП). Этот фактор имеет большее число градаций, чем СОУ и КОУП. «Отличному» качеству соответствует ФКУП больше 0,71, «очень хорошему» от 0,64 до 0,71, «хорошему» от 0,41 до 0,64, «удовлетворительному» от 0,17 до 0,41 и «неудовлетворительному» менее 0,17.

Описанная методика реализована в виде электронной таблицы. Для примера проанализируем учебный процесс по информатике и информационным технологиям в 8 классе. По программе это первый класс, когда начинается систематическое изучение информационных технологий. Кроме того, следует учитывать, что учащиеся переходят от одного учителя к другому и уровень требовательности к ним существенно повышается. В течение учебного года, учащиеся должны выполнить 9 заданий на оценку, при чем первые 4 задания по работе с операционной средой Windows, а остальные 5 по работе с текстовым процессором Word. В таблице представлены результаты для 8 Б класса, который по уровню обученности оказался средним среди 3-х классов в параллели [16].




2.1.8 Модель адаптивного тестового контроля

Процедура тестирования предполагает анализ ответов на последовательность тестовых заданий определенной сложности. Проведем аналогию с поведением поискового алгоритма оптимизации для некоторой гипотетической функция Y, максимум которой необходимо найти. В задачах оценивания по тестированию — это максимум функции уровня знаний.

Реализация поискового алгоритма сводится к последовательному анализу локальной окрестности функционала Y, оценки градиента и выбора очередной области исследования. Если при оценке градиента имеют место помехи, то нельзя говорить о сходимости алгоритма. В обычном смысле он сходится вообще не будет, а будет “блуждать” вокруг области экстремума.

Аналогично можно поступить в случае тестового контроля. Если ответ правильный, то предполагается, что уровень подготовки студента выше сложности предъявленной задачи и он способен решать задачи заданной сложности, в противном случае — неспособен. Это подобно оценке градиента некоторой гипотетической функции регрессии, в которой градиент сам является случайной величиной.

Предлагается использовать следующий подход. Считаем, что если тестируемый решил задание, то у него появляется желание решить более сложное задание. Если нет — то им будет сделана еще одна попытка решения задания той же сложности. Если оно также не решено, то предъявляется задача пониженной сложности. Если сразу не решено менее сложное задание, то к решению предлагается задача меньшей сложности . Аналогично происходит процесс повышения сложности заданий. В результате, если исключить этап обучения при решении задач, студент выберет для себя определенный уровень сложности, вокруг которого и будет размываться сложность заданий.

Таким образом, функция «уровня знаний» является преобразованием функции «сложности» задачи через «способность решения задач» определенной «сложности». В этом высказывании термины «уровень знаний», «способность решения задач» и «сложности» носят нечеткий характер. Поэтому для формализации этих понятий целесообразно использование аппарата нечетких множеств. Кроме того, в указанной постановке заметна разница между «сложностью» и «способностью решения задач».

Понятия «сложность» и «уровень знаний» — это некоторые нечеткие переменные (только переменные, хотя они и задаются функцией), в то время как «способность решения задач» является нечетким отношением нечетких переменных «сложности» и «уровня знаний». Количество баллов также является переменной, однако эта переменная может не анализироваться, поскольку является преобразованием «уровня знаний».

При моделировании ответов в настоящее время наиболее развит анализ IRT теории, которая использует для моделирования вероятностей правильных ответов логистическую кривую. Проведен сравнительный анализ логистического и нормального распределений. Показано, что рассматривая логистическое распределение очень хорошо аппроксимируется нормальным. В свою очередь нормальный закон является предельным случаем биномиального распределения. Этот факт можно формально интерпретировать так, что «уровень знаний» является долей решенных задач, так как число решенных из общего числа задач при заданной вероятности решения подчинено биномиальному распределению.

Далее предполагается, что сложность задания задана некоторым числовым значением, и в результате выполнена формализация процесса тестирования в виде марковской цепи, в которой вероятности переходов по сложностям определяются на основании логистической кривой. Предполагается, что ответы на задания — независимые величины. Поэтому используется однородная марковская цепь, где состояниями цепи являются меры сложности заданий. Показано, что для построенной цепи существует единственное, не зависящее от начального состояния, стационарное распределение. Найдено аналитическое решение стационарных вероятностей.

Увеличивая дискретизацию сложности, т.е. увеличивая количество состояний марковской цепи показана сходимость к непрерывному распределению. Найдено предельное распределение, которое используется для визуализации преобразований «сложности» в «знание». На практике наиболее естественны случаи, когда оценки имеют постоянную дисперсию или постоянный коэффициент вариации. Постоянный коэффициент вариации объясняется увеличением неопределенности при возрастании «уровня знаний». Постоянная дисперсия может использоваться, когда изменение уровня знаний невелико. Для постоянной дисперсии показано, что преобразование носит экспоненциальный характер. Экспоненциальная функция монотонная и большим значениям функции «уровень знаний» соответствуют большие значения плотности распределения «сложности» решаемой задачи. Соответственно максимум плотности приходится на максимум целевой функции. Для постоянного коэффициента вариации (g) показано, что преобразование описывается степенной функцией, а при g=1 функция плотности вероятности с точностью до постоянного множителя на всей области определения совпадает со средним значением функционала. Таким образом, если есть мера «сложности» задания, то определена и мера «уровня знаний» и она совпадает с плотностью распределения адаптивного алгоритма тестирования.

Страницы: 1, 2, 3, 4, 5, 6