当前位置: X-MOL 学术Applied Measurement in Education › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Evaluating Human Scoring Using Generalizability Theory
Applied Measurement in Education ( IF 1.528 ) Pub Date : 2020-07-21 , DOI: 10.1080/08957347.2020.1750403
Yaw Bimpeh 1 , William Pointer 1 , Ben Alexander Smith 1 , Liz Harrison 1
Affiliation  

ABSTRACT

Many high-stakes examinations in the United Kingdom (UK) use both constructed-response items and selected-response items. We need to evaluate the inter-rater reliability for constructed-response items that are scored by humans. While there are a variety of methods for evaluating rater consistency across ratings in the psychometric literature, we apply generalizability theory (G theory) to data from routine monitoring of ratings to derive an estimate for inter-rater reliability. UK examinations use a combination of double or multiple rating for routine monitoring, creating a more complex design that consists of cross-pairing of raters and overlapping of raters for different groups of candidates or items. This sampling design is neither fully crossed nor is it nested. Each double- or multiple-scored item takes a different set of candidates, and the number of sampled candidates per item varies. Therefore, the standard G theory method, and its various forms for estimating inter-rater reliability, cannot be directly applied to the operational data. We propose a method that takes double or multiple rating data as given and analyzes the datasets at the item level in order to obtain more accurate and stable variance component estimates. We adapt the variance component in observed scores for an unbalanced one-facet crossed design with some missing observations. These estimates can be used to make inferences about the reliability of the entire scoring process. We illustrate the proposed method by applying it to real scoring data.



中文翻译:

使用概化理论评估人类得分

摘要

英国(UK)的许多高分考试都使用结构化反应项目和选择化反应项目。我们需要评估由人类评分的构造反应项目的评分者间可靠性。尽管在心理计量学文献中有多种方法可以评估评估者之间的评估者一致性,但是我们将概化理论(G理论)应用于来自常规评估评估的数据,以得出评估者间可靠性的估算值。英国考试将双重或多重评级的组合用于常规监控,从而创建了更为复杂的设计,其中包括对不同候选人或项目组的评估者进行交叉配对和评估者重叠。此采样设计既不完全交叉也不嵌套。每个双分或多分项目都采用不同的候选集,每个项目的抽样候选者数量会有所不同。因此,标准的G理论方法及其用于估计评估者之间可靠性的各种形式不能直接应用于运营数据。我们提出一种方法,该方法采用给定的双或多个评级数据并在项目级别分析数据集,以获得更准确和稳定的方差分量估计。对于一些缺少观察值的不平衡单面交叉设计,我们将观察值的方差成分进行了调整。这些估计值可用于推断整个评分过程的可靠性。我们通过将其应用于实际评分数据来说明所提出的方法。无法直接应用于运营数据。我们提出一种方法,该方法采用给定的双或多个评级数据并在项目级别分析数据集,以获得更准确和稳定的方差分量估计。对于一些缺少观察值的不平衡单面交叉设计,我们将观察值的方差成分进行了调整。这些估计值可用于推断整个评分过程的可靠性。我们通过将其应用于实际评分数据来说明所提出的方法。无法直接应用于运营数据。我们提出一种方法,该方法采用给定的双或多个评级数据并在项目级别分析数据集,以获得更准确和稳定的方差分量估计。对于一些缺少观察值的不平衡单面交叉设计,我们将观察值的方差成分进行了调整。这些估计值可用于推断整个评分过程的可靠性。我们通过将其应用于实际评分数据来说明所提出的方法。对于一些缺少观察值的不平衡单面交叉设计,我们将观察值的方差成分进行了调整。这些估计值可用于推断整个评分过程的可靠性。我们通过将其应用于实际评分数据来说明所提出的方法。对于一些缺少观察值的不平衡单面交叉设计,我们将观察值的方差成分进行了调整。这些估计值可用于推断整个评分过程的可靠性。我们通过将其应用于实际评分数据来说明所提出的方法。

更新日期:2020-07-21
down
wechat
bug