汉语大全>计算机理论>IRT和Logistic模型在计算机评测及试题编制中的应用

IRT和Logistic模型在计算机评测及试题编制中的应用

详细内容

0 引言项目反应原理(IRT)又称为题目反应理论,基本思想是与心理学中关于潜在特质的一般理论相关 [1] 。标准化考试所用试题已经不再单纯检测知识体系,而注重检测实践应用能力 [2] 。自适应测试比常规测试具有更高的效率,它可以用比常规测试更少的试题量获得更好的测试效果。有实验表明,在同等测量精确度的条件下,自适应测试可缩短 40%~60%的测试长度 [3] 。因此自适应测试系统在教学测评中有很好的应用前景。项目反应原理通过项目反应曲线综合各种项目分析的资料,直观地看出项目难度、鉴别度等项目分析的特征,从而起到指导项目筛选和编制测验比较分数等作用。

1 Logistic 模型常用的项目反应模型数学函数是逻辑斯蒂拱形函数簇,根据参数的不同,有单参数、双参数和三参数 3 种模型 [4,5] 。

1.1 1Parameter Logistic Model(1PLM) p i ++ θ = 1 1+e -D θ-b i + + (1)式中 b———难度系数; D———量化因子,通常令其=1.702; p i ++ θ 表示具有水平 θ 的考生能够正确回答一个具有难度 b 的问题的概率。 1.2 2Parameter Logistic Mode(l2PLM) p i ++ θ = 1 1+e -Da i θ-b i + + (2)式(2)比式(1)多了一个参数 a,它表示试题的区分度。为了修正误差,在 1PLM 的基础上引入了区分度参数,使得模型变成两参数模型,即 2PLM。这里的修正参数 a,被叫做曲线特征参数或曲线斜率(Slope)参数,通常 a=1 是平均值,在平均值之上的是 a=2,在平均值之下的是 a=0.5,当 a 取这些值,b 为 1 时,特征曲线见图 1 [6] : 1.3 3Parameter Logistic Mode(l3PLM) p i ++ θ =c+ 1+ + + c 1 1+e -Da i θ-b i + + (3)式(3)比式(2)多了一个参数 c,其余参数定义相同。这里引入参数 c 的主要目的是考虑到考生在实际答题中,进行猜题的可能性是存在的,而且猜对正确答案的概率还是很大的。实际上就是为了避免能力(θ)低的考生,对于难度相对较大的试题,猜出正确答案的可能性。当难度 b=1,区分度 a=1,猜测系第煤 炭 技 术 Coal Technology Vol.30,No.10 October,2011 IRT 和 Logistic 模型在计算机评测及试题编制中的应用包佃清 1 ,苏 文 2 ,马小虎 3 (1. 连云港师范高等专科学校,江苏 连云港 222006;2. 连云港职业技术学院,江苏 连云港 222006;3. 苏州大学,江苏 苏州 2150033PML 模式数据表表 4 模型与指标对比表图 2 a=1,b=1 时的 3PLM 特征曲线表 2 2PML 模式数据表图 1 b=1 时 2PLM 特征曲线数分别为 0,0.1,0.5,0.9 时的,特征曲线见图 2 [6] :当 c=0 时,实际上就是没有猜测的成分在内,也就是 2 参数逻辑斯蒂模型,当 c=1 时,特征曲线与水平 θ(水平轴)重合,也就是说完全是猜测出的答案。

2 BILOG-MG 分析此次统计分析采用 BILOG-MG 系统运行的模拟数据。通过对 210 名学生的《C 语言程序设计》考试试卷进行抽样,共抽取了 40 名同学的成绩并录入计算机。再对所抽取的考生样本进行统计检验,结果表明,所抽取的样本呈正态偏易分布,与样本总体有着相似的分布,这证明所抽取的样本具有一定的可靠性。以某考生的单选题为例,讨论 1PML、2PML 及 3PML 逻辑斯蒂模型对试题的影响。在 1PML 模式下得到的单选题试题参数,其结果如表 1 所示(标有 * 的试题,表示在此模式下的卡方 x 2 检验 [7] 指标<0.5)。在 2PML 模式下得到的单选题试题参数,其结果如表 2 所示。在 3PML 模式下得到的单选题试题参数,其结果如下表 3 所示。 3 实验结论从数据显示来看,测试长度为 32,测验的精度为 0.00001,这说明测试收敛程度较好。在 1PML、 2PML 及 3PML 逻辑斯蒂模型下,表现出的卡方 检验指标有着很大的不同。从模拟数据分析可以很明显的看出:1PML 的模型有 12 题的卡方 指标小于 0.5,2PML 的模型有 8 题的 (0.5)指标,而 3PML 的模型只有 5 题的(0.5)指标,项目残差值最小。所以建议采用 3PML 模型,如表 4 所示。根据分析 b 参数指标,对比 3 种逻辑斯蒂模型,发现 3PML 模型下平均 b 指标的绝对值最小,而且 b 指标大部分都是小于零的,可以得出 32 试题综合情况下总体难度偏易,实验基本符合预期。

参考文献: [1] 余嘉元.项目反应理论及其应用[M].南京:江苏教育出版社,1992. [2] 许可. 煤炭行业网络考试系统中试题库的设计 [J]. 煤炭技术, 2010,29(11):148-149. [3] 余胜泉,何克抗.网络题库系统的设计与实现[J].中国远程教育, 2000,9(3):53-57. [4] 张华龙,龙华.计算机自适应考试技术在网络教育中的应用[J].东华大学学报:自然科学版,2004,30(3):76-80. [5] 李卫东,黄河笑,郭俊文.IRT 在自适应考试中的应用[J].计算机工程,2001,27(7):179-181. [6] 包佃清.基于项目反应原理的分布式网络考试系统研究与设计[D]. 苏州:苏州大学硕士学位论文,2007. [7] Chang Hua hua,Ying Zhi liang.A-stratifed multisage putere adaptive testing [J]. Applied Psyehologieal Measuremet,1999,23 (3):211-222.(本论文由://shlunwen.整理提供,如需转载,请注明出处或联系我们的客服人员)

相关文章链接:计算机网络课程的改革与实践