IRT和Logistic模型在计算机评测及试题编制中的应用

详细内容

0 引言项目反应原理（IRT）又称为题目反应理论，基本思想是与心理学中关于潜在特质的一般理论相关 [1] 。标准化考试所用试题已经不再单纯检测知识体系，而注重检测实践应用能力 [2] 。自适应测试比常规测试具有更高的效率，它可以用比常规测试更少的试题量获得更好的测试效果。有实验表明，在同等测量精确度的条件下，自适应测试可缩短 40%～60%的测试长度 [3] 。因此自适应测试系统在教学测评中有很好的应用前景。项目反应原理通过项目反应曲线综合各种项目分析的资料，直观地看出项目难度、鉴别度等项目分析的特征，从而起到指导项目筛选和编制测验比较分数等作用。

1 Logistic 模型常用的项目反应模型数学函数是逻辑斯蒂拱形函数簇，根据参数的不同，有单参数、双参数和三参数 3 种模型 [4,5] 。

1.1 1Parameter Logistic Model(1PLM) p i ++ θ = 1 1+e -D θ-b i + + （1）式中 b———难度系数； D———量化因子，通常令其=1.702； p i ++ θ 表示具有水平 θ 的考生能够正确回答一个具有难度 b 的问题的概率。 1.2 2Parameter Logistic Mode（l2PLM） p i ++ θ = 1 1+e -Da i θ-b i + + （2）式（2）比式（1）多了一个参数 a，它表示试题的区分度。为了修正误差，在 1PLM 的基础上引入了区分度参数，使得模型变成两参数模型，即 2PLM。这里的修正参数 a，被叫做曲线特征参数或曲线斜率（Slope）参数，通常 a=1 是平均值，在平均值之上的是 a=2，在平均值之下的是 a=0.5，当 a 取这些值，b 为 1 时，特征曲线见图 1 [6] ： 1.3 3Parameter Logistic Mode（l3PLM） p i ++ θ =c+ 1+ + + c 1 1+e -Da i θ-b i + + （3）式（3）比式（2）多了一个参数 c，其余参数定义相同。这里引入参数 c 的主要目的是考虑到考生在实际答题中，进行猜题的可能性是存在的，而且猜对正确答案的概率还是很大的。实际上就是为了避免能力（θ）低的考生，对于难度相对较大的试题，猜出正确答案的可能性。当难度 b=1，区分度 a=1，猜测系第煤炭技术 Coal Technology Vol.30,No.10 October,2011 IRT 和 Logistic 模型在计算机评测及试题编制中的应用包佃清 1 ，苏文 2 ，马小虎 3 （1. 连云港师范高等专科学校，江苏连云港 222006；2. 连云港职业技术学院，江苏连云港 222006；3. 苏州大学，江苏苏州 2150033PML 模式数据表表 4 模型与指标对比表图 2 a=1，b=1 时的 3PLM 特征曲线表 2 2PML 模式数据表图 1 b=1 时 2PLM 特征曲线数分别为 0，0.1，0.5，0.9 时的，特征曲线见图 2 [6] ：当 c=0 时，实际上就是没有猜测的成分在内，也就是 2 参数逻辑斯蒂模型，当 c=1 时，特征曲线与水平 θ（水平轴）重合，也就是说完全是猜测出的答案。

2 BILOG-MG 分析此次统计分析采用 BILOG-MG 系统运行的模拟数据。通过对 210 名学生的《C 语言程序设计》考试试卷进行抽样，共抽取了 40 名同学的成绩并录入计算机。再对所抽取的考生样本进行统计检验，结果表明，所抽取的样本呈正态偏易分布，与样本总体有着相似的分布，这证明所抽取的样本具有一定的可靠性。以某考生的单选题为例，讨论 1PML、2PML 及 3PML 逻辑斯蒂模型对试题的影响。在 1PML 模式下得到的单选题试题参数，其结果如表 1 所示（标有 * 的试题，表示在此模式下的卡方 x 2 检验 [7] 指标＜0.5）。在 2PML 模式下得到的单选题试题参数，其结果如表 2 所示。在 3PML 模式下得到的单选题试题参数，其结果如下表 3 所示。 3 实验结论从数据显示来看，测试长度为 32，测验的精度为 0.00001，这说明测试收敛程度较好。在 1PML、 2PML 及 3PML 逻辑斯蒂模型下，表现出的卡方检验指标有着很大的不同。从模拟数据分析可以很明显的看出：1PML 的模型有 12 题的卡方指标小于 0.5，2PML 的模型有 8 题的（0.5）指标，而 3PML 的模型只有 5 题的（0.5）指标，项目残差值最小。所以建议采用 3PML 模型，如表 4 所示。根据分析 b 参数指标，对比 3 种逻辑斯蒂模型，发现 3PML 模型下平均 b 指标的绝对值最小，而且 b 指标大部分都是小于零的，可以得出 32 试题综合情况下总体难度偏易，实验基本符合预期。

参考文献： [1] 余嘉元.项目反应理论及其应用[M].南京：江苏教育出版社,1992. [2] 许可. 煤炭行业网络考试系统中试题库的设计 [J]. 煤炭技术, 2010,29(11):148-149. [3] 余胜泉,何克抗.网络题库系统的设计与实现[J].中国远程教育, 2000,9(3):53-57. [4] 张华龙,龙华.计算机自适应考试技术在网络教育中的应用[J].东华大学学报：自然科学版,2004,30(3):76-80. [5] 李卫东,黄河笑,郭俊文.IRT 在自适应考试中的应用[J].计算机工程,2001,27(7):179-181. [6] 包佃清.基于项目反应原理的分布式网络考试系统研究与设计[D]. 苏州：苏州大学硕士学位论文,2007. [7] Chang Hua hua,Ying Zhi liang.A-stratifed multisage putere adaptive testing [J]. Applied Psyehologieal Measuremet,1999，23 (3):211-222.（本论文由://shlunwen.整理提供，如需转载，请注明出处或联系我们的客服人员）

相关文章链接：计算机网络课程的改革与实践

IRT和Logistic模型在计算机评测及试题编制中的应用

详细内容

猜你喜欢