您当前位置：广东自考网 > 串讲笔记> 2005年10月“人事测量”串讲资料（北大心理系）> 浏览文章

2005年10月“人事测量”串讲资料（北大心理系）

编辑整理：广东自考网发布于：2018-05-23 12:25:53（）点击：次

立即购买

《自考视频课程》名师讲解，轻松易懂，助您轻松上岸！低至199元/科！

◎：名词◇填空或选择◆多选★论述☆简答

第一章人事测量概论第一节什么是人事测量
一、人事测量、心理测量与心理测验
1.◎心理测量：是通过科学、客观、标准的测量手段对人的特定素质进行测量、分析、评价。研究心理测量的学科叫做心理测量学。
2.◎人事测量：是心理测量技术在人事管理领域的应用，它以心理测量为基础，针对特定的人事管理目的如招聘、安置、考核、晋升、培训等，对人的素质进行多方面系统评价，从而为人事管理、开发提供参考依据。相对来说，人事测量是一个更广泛的实用概念，它通常要求运用多种心理测量工具来完成。
3.◎心理测验：是心理测量的一种具体方法和手段，它是结合心理学和统计学方法评价特定个体在特定素质上相对于特定群体所处的水平的手段。心理测验是人事测量中最常采用的方法之一。除测验法之外，人事测量还经常采用观察法、访谈法、调查法、情景模拟法等等。
4.心理测量与人事测量的关系：心理测量是人事测量的基础。人事测量是以人为对象，是对人的测量，这正是以心理测量为基础进行的。绝大多数人事决策都需要以人事测量为基础。例如，招聘人员时，要测量应聘者的能力、工作动机；考虑晋升时要评价能力是否胜任新的职位；计划培训时要考察对象在哪些方面对于完成规定的工作任务有不足。所有这一切都要运用心理测量。所以，要从事人事测量，首先要掌握心理测量。
二、心理测验的五个基本要素
1.◎行为样本：个体对所抽选出来的问题的解决行为就叫做行为样本。
2.◎标准化：是指测验编制、实施、记分和测验分数解释必须遵循严格的统一的科学程序，保证对所有被测者来说施测的内容、条件、记分过程、解释系统都相同。只有这样才能保证测验的客观性和准确性。
◎常模是一组具有代表性的被试样本的测验成绩的分布结构，包括它的集中趋势和离散度。◇常模是否可靠，关键是有没有一个具有代表性的被试样本，即建立常模的这些被试样本要有足够的数量，而且是依据随机抽样或分层随机抽样原则抽选出来的。
3.难度的客观测量。测验题目过于容易，致使大部分个体得分普遍较高的现象，称为天花板效应◎。测验题目过难，致使大部分个体得分普遍较低的现象，称为地板效应◎。
4.◎信度：是指测验结果的可靠性、稳定性，即测验结果是否反映了被测者的稳定的、一贯性的真实特征。
5.◎效度：是指所测量到的结果是否反映了所想要考察的内容，也就是说，该测验所测的是不是它想要测的东西。效度指标主要包括效标关联效度、内容效度和构想效度等。
第二节人事测量的功能与用途（了解）
人事测量的具体功能涉及甄选、安置、考核与培训等方面。
⑴甄选：在人事管理领域，人事测量可以用来对人才进行选拔。人事甄选的一个关键技术问题，是如何预测未来工作的绩效。人事测量恰恰可以为预测应聘者将来的工作行为和绩效提供重要的科学依据。⑵安置：通过人事测量，可以对个体的兴趣、人格、能力、技能等多方面进行分析，为实现人才的合理安置提供信息。⑶考核与培训：人事测量能够提供关于个体的行为的描述，形成对被测者的全面的评价，从而为人事考核及培训提供依据。
第三节人事测量的基本程序
一、确定测量的目的和内容。根据不同的测量目的确定具体的测量内容是人事测量的第一步。
二、确定测量的基本形式和测量工具
1.一般自陈量表（即基于自我评价的问卷）的动机测验题目表面效度（即从题目表面是否容易看出出题人的意向和答案倾向）过高。
2.应聘者容易表现出较高的社会赞许性，即题目本身的答案反映了一般社会价值倾向，应答者容易表现出反应偏差，投其所好，故可能不适合于在招聘考核中采用时，就可以采用隐蔽性比较高的投射测验（如主题统觉测验）来对应试者的动机进行评定。
三、测量的实施与数据采集
四、分析测量结果　对测量结果的分析通常包括对测量结果的计分、统计和解释。
五、根据分析作出决策或对决策的建议
决策与测量的目的联系紧密，以选拔为目的的测量，其决策内容为候选人名单；以安置为目的的测量，其决策内容为岗位与应聘者的匹配；以评价为目的的测量，其决策内容为对应试者素质的评价；以诊断为目的的测量，其决策内容为应试者的问题和特长或应试团体的状况和管理问题；以预测为目的的测量，其决策内容为应试者将来的绩效和工作表现。
六、跟踪检验和反馈
确定测量目的　（根据岗位职务任职要求确定检测内容）
确定测量方法　（确定测量的基本形式和测量工具）
实施测量　　（测量的实施与数据采集）
分析测量结果　（对采集数据进行统计分析并作出报告）
人事决策与建议　（根据分析作出决策或对决策的建议）
第二章人事测量的历史
第一节最早的智力测验：法国比奈的智力测验
1.◇世界上第一个具有应用价值的心理测验，是法国心理学家比奈制定的智力测验。
2.◇比奈的智力测验是专门研究对公立学校的智力落后儿童进行特殊教育。研究的首要问题是如何对智力落后儿童进行鉴别。
3.智力包括一切高级的心理过程，并突出表现在推理、判断、问题解决的能力上。
4.1905年比奈－西蒙量表是一项个体测验。
5.◎智力年龄：即为每一个年龄（段）确定出难度最适宜的题目（即该年龄恰好有60%的被测者能完成的题目），用被测者所能完成的最大难度的题目所对应的年龄作为该被测者的智力年龄。以此对照其实足年龄，来说明其智力的高低发展水平。
6.智力的发展和实足年龄的发展不同，不具有时间均匀性。
7.智商IQ=100×实足年龄/智力年龄
8.◎离差智商：以标准差为单位计算测验分数偏离平均数的方向和程度。其分数本身并不能说明智力的实际高低，它只是一个相对值，表明一个人的智力水平相对于和他同类型的人群群体的平均水平所处的高低位置。
第二节心理测量在欧美的发展
一、心理测量在美国的崛起
1.欧提斯编制的纸笔智力测验，十分适合于团体施测。这项测验最后编制修订成著名的军队α和军队β测验，即陆军甲种测验和陆军乙种测验，前者为文字测验，后者为非文字测验，是专门为文盲和不懂英文的新兵设计的。
2.◇世界上第一个标准化的人格问卷—武德沃斯编制的“个人资料调查表”；第一个职业兴趣测验—斯特朗男性职业兴趣量表。
二、心理测量在工业人事选拔中的应用
1.心理测验在工业人事选拔中应用的原因是：其一，工作的绩效和人的素质有关，要追求高的工作绩效，必须有高素质的人才。其二，不同的工作对人的素质结构的要求不同，必须有针对性地为不同的工作匹配不同的人才，才能确保各种工作的高绩效，做到恰当的人做恰当的事。这也就是最经典的“人—事匹配”◎的思想。
2.智力（能力）测验。在美国，有一种测验叫做“分化能力性向测验”，缩写为DAT，分别从语言理解、语言推理、数学推理、抽象推理、空间推理、机械推理等六个方面检测人的智力水平，从而整体分析智力结构。
3.人格测验。◎人格主要是指人所具有的与他人相区别的独特而稳定的思维方式和行为风格。有的人很容易受周围人和环境的影响和暗示，判断事物缺乏自己的标，即所谓场依存性的人。◇著名的人格测验包括：明尼苏达多相人格问卷（MMPI）、卡特尔16人格因素问卷（16PF）、加州人格问卷（CPI）、梅耶—布里基斯人格特质问卷（MBTI）、DISC人格测验（DISC）等。梅耶—布里基斯人格特质问卷（MBTI）是一个遵循心理分析学家荣格的理论建构的测验。
4.职业兴趣测验。◇历史上最著名的职业兴趣测验有斯特朗—坎培尔职业兴趣测验和霍兰德职业兴趣问卷。它们通过分析确定职业兴趣而分为六大类◇：社交型、艺术型、研究型、技能型、事务型、经营型。
5.动机测验。◎动机是指由特定需要引起的，欲满足该种需要的特殊心理状态和意愿。从以往的研究和测验来看，大致分为两个思路：一个是探讨人的一般生活动机；一个是专门探讨人的工作动机。一般生活动机是指人们广泛的生活领域中具有普遍性的需求所导致的动机。工作动机是具体指驱使人们工作的原因。著名心理学家麦克里兰提出了三重需要理论：成就动机，即寻求获得成功；权力动机，即寻求获得、保持和运用对他人的影响和支配；亲和动机，即寻求与多数人群保持密切的关系。
第三节心理测量在中国落户
1.1924 年，燕京大学的心理学家、曾出任燕京大学校长的陆志韦先生发表了经修订的比奈—西蒙量表这就是中国最早的标准化的比奈智力测验。
2.1979 年，北京大学心理学系的吴天敏教授对中国的比奈量表进行了第三次修订。
第四节人事测量技术的革新
人事测量技术在近几十年来的发展表现在以下几个方面：
一、出现大量适用于人事管理领域的测验；二、面试技术在人才选拔中广泛应用；三、人格测验成为人才甄选程序的必要过程；四、针对具体要求的测验设计、组合越来越重要。
第三章人事测量的基本类型
第一节标准化的纸笔测验
一、什么是标准化的纸笔测验
1.◎纸笔测验就是只用纸和笔就能进行的测验。这类测验在实施过程中，一般不需要借助其他工具和手段。
2.一个标准的纸笔测验系统包括客观的计分系统、解释系统、良好的常模以及值得信服的信度、效度和项目分析数据。
二、对标准化纸笔类测验的评价
1.标准化的纸笔类测验之所以被广泛采用，是因为它的方便性、经济性和客观性。
2.标准化纸笔测验的不足之处在于：⑴受测验的形式所制约；⑵纸笔测验的实施较为程式化；⑶纸笔形式测验中有标准答案的测验如能力测验,并不能完全避免考试技巧和猜测因素的影响。
第二节投射测验
一、什么是投射测验
1.◇投射技术一词由富兰克于1939年首先明确提出。
2.◎投射测验：要求被试对一些模棱两可或模糊不清、结构不明确的刺激作出描述或反应，通过对这些反应的分析来推断被试的内在心理特点。其逻辑假定是，人们对外在事物的看法实际上反映出其内在的真实状态或特征。
3.投射测验的三个主要特点是它的非结构性、掩蔽性和整体性。非结构性是指投射测验使用非结构化任务作为测验材料,即允许被试产生各种各样不受限制的反应；掩蔽性是指测验的目的的掩蔽性，被试一般不可能知道测验的真实目的，也不知道对自己的反应将作何心理学解释，减少被试伪装自己的可能性；整体性是指测验关注的是对人的总体评估，而不是针对单个特质的测量。
二、投射测验的分类及实例
1.林德塞按照测验所引起的反应性质将投射测验分为五类：联想法投射测验、构造法投射测验、完成法投射测验、选择或排列法投射测验、表露法投射测验。
三、对投射类测验的评价
1.☆对于投射测验的批评包括：⑴由于投射测验结果的分析一般是凭分析者的的主观推断，其科学性有待进一步考察。⑵投射测验在计分和解释上相对缺乏客观标准，人为性较强，不同的测验者对同一测验结果的解释往往不同，并且，投射测验的重测信度也很低。⑶投射技术是否能真正避免防御反应的干扰，在研究上并未得出一致结论。
2.☆投射测验在应用时的不便之处在于：⑴投射测验一般为个体测验,不仅测验时间长,分析结果所需要的时间也很长,实施起来耗费精力。⑵投射测验对主试和评分者的要求很高，一般只能由丰富、有专业背景的人担当。⑶对投射测验结果的评价带有浓重的主观色彩,不能满足人事测验的公平性原则。
第三节行为模拟与观察类测量
一、行为观察法
1.◎行为观察法是通过安排一定的情境，在其中观察特定个体（或群体）的特定行为，从中分析所要考查的内在素质或特征。行为观察法可以分为自然观察法、设计观察法和自我观察法。
2.◎自然观察法：是观察者在真实的生活或工作情境中对个体的行为进行直接观察的方法。
3.◎设计观察法：即在认为设计的环境中观察特定的行为或反应。在人事测量领域经常用到的设计观察法有情境压力测验和模拟情境测验两种。
⑴◎情境压力测验：由主试向被观察者布置一定任务和作业，借以观察个体完成任务的行为。工作样本测验、无领导小组讨论都可以算做情境压力测验。◎工作样本测验：主试通常向被试布置一项工作任务，要求被试在一定时间内完成，观察者对被试完成任务的行为过程和行为结果进行观察和评估。◎无领导小组讨论：是安排一组互不相识的应聘者（通常为6～8人）组成一个临时任务小组，并不指定任务负责人，请大家就给定的任务（讨论题）进行自由讨论，并拿出小组决策（讨论）意见。⑵◎模拟情境测验：是指通过模拟一个尽可能接近真实工作情境的环境，要求被试完成某项任务，对被试的完成任务的行为过程及行为结果进行观察、评估。角色扮演测验就是一个典型的模拟情境测验。◎角色扮演测验：是通过赋予被试一个假定的角色，要求被试按照角色要求表现自己的行为，观察记录并评价角色扮演的行为，评价角色接近程度或胜任力。
4.◎自我观察法：是由被试自己对自己的行为进行观察，并记录自己行为的方法。
二、对行为模拟与观察类测量的评价：行为模拟与观察类测量的最大弊端，是它操作的困难性。并且，这类测量通常只能逐个进行，测量的成本很高。最后，这类测验的结果分析也很复杂，其客观性易受到影响。☆行为模拟与观察类测量具有如下优点：⑴通过行为测量可以观测到被试在具体情境下的真实行为，比对行为的自我评估，其结果更容易令人信服。⑵通过对情境的操作，可以使测试情境与将来的工作情境尽可能相似，所测量出的结果具有很好的预测效果。⑶在行为测量中，被试的个人特点和能力可以得到充分的展示。
第四节基于工作情境的综合类测量
一、◎公文筐测验：是让被试在所安排的假想的情境中扮演某种管理者的角色，对事先设计的一系列文件进行处理，进而针对被试处理公文的方式、方法、结果等进行评价。公文筐测验一般用于对高级管理者的评价，它可以对应试者的计划、预测、决策、沟通等管理能力进行测查，在管理领域应用十分广泛。
二、◎面试：是考官针对自己感兴趣的、与工作有关的各种问题，与应聘者进行面对面的交谈，收集有关信息，从而达到了解、评价应聘者目的的目的。
面试按其形式的不同可以分为结构化面试和非结构化面试。结构化面试：往往有事先确定的提问提纲，里面列出需要了解的各方面的问题，而且这些问题通常还可能有一定的内在的逻辑结构。面试时，考官按照固定的程序向应试者逐个提问这些问题。非结构化面试：没有固定的面谈程序，面谈者提问的内容和顺序都取决于面谈者的兴趣和现场应试者的回答。这种面试方法给谈话双方以充分的自由。
三、调查法: 指就员工的某些意愿、态度、观点或感受等认知性或情感性心理状态或行为倾向，进行一定范围的信息搜集，并就相应状态或倾向的特性、程度、广泛性等作出分析评价，通常由一系列问题构成，可以是纸笔形式，也可以是访谈形式。
第四章如何建立人事测量工具
要建立一项完善的人事测量工具，目标设定是第一步。
第一节针对不同目的的测量工具的设计
一、测量目标的分析
1.◎显示性测量：反应被测量者具有什么知识和特点，能完成什么任务。例如，成就测验、态度测验就是显示性测量。
2.◎预测性测量：帮助预测一个人在不同情境下的行为。例如：各种能力倾向测验、部分人格测验和角色扮演、公文筐测验等都是预测性测量。
3.◎任务分析：对于有选拔和预测功用的预测性测量工具，它的主要任务是要对所预测的行为活动做具体分析，故称之为任务分析或工作分析。这种分析包括两个步骤：首先要确定，为了使所预测的活动达到成功，需要哪些心理特质和行为。其次，还要建立衡量被试成功与否的标准，这个标准称之为效标。
4.◎双向细目表：是一个由测量的内容材料维度和行为技能维度所构成的表格，它能帮助成就测量工具的编制者决定应该选择哪些方面的题目以及各类题目应占的比例。
二、根据测量目标确定测量的内容和形式
确定测量内容和形式是决定性的关键，它决定测量有效与否。步骤包括：例：某商场需要招聘一批具有一定工作能力、有敬业精神并且掌握一定专业知识的摄像设备的销售人员。第一步，确定测量目标。对应聘者将来的工作能力、工作动机进行预测，并且对应聘者现有的专业知识进行了解。第二步，设计测量内容。可以对其工作能力、成就动机进行考察。第三步，设计测量形式。是采用情境模拟测验还是纸笔测验等的选择。
第二节题目的设计和测量的编制
◇一般在客观题的测验中，为了可供筛选，编写出的题目应比实际需要多20%以上，如果考虑到以后还要不断筛选和修改，初次编写的题目量可以比实际需要的多出一倍到几倍。
一、测验题目的来源
1.◇☆收集题目的方法有很多,包括从现成的测验中选取、按照现有理论设计、请专家设计等。①从现成的测验中选取,最简单、最直接的方法,是从已经出版的各种标准的测量工具中选择合适的题目。②现有理论设计,现成的理论从来都是设计测验题目的重要参考，如编制态度测量量表,则有关态度的类型、定义等理论都有参考和指导作用。③专家设计,专家无疑是设计测验的重要资源。在实际操作上,既可以直接延请专家出场设计题目,也可以参考专家的有关经验、建议或以往的工作。
2.☆◇在收集题目时应注意几个问题：⑴题目的来源要尽可能地丰富，这样测量内容不至于偏颇，并能提高行为样本的代表性。⑵题目要有普遍性，尤其是成就测验，要保证所有施测对象都学过该测验中题目所包含的内容。⑶在编制智力或能力等本身不应体现文化影响的内容的测量题目时，要尽量避免文化背景差异的影响。
二、题目编写的原则：◇☆对测量工具题目进行编写要遵从某些一般原则，这些原则可以归纳为内容、语言、表达与理解这四个方面。(1)针对题目内容的原则：①要求题目的内容符合测量工具的目的，避免贪多而乱出题目；②内容取样要有代表性，符合测量工具计划的内容；③各个试题必须彼此独立，不可互相重复或牵连，切忌一个题目的答案影响对另一个题目的回答。(2)针对题目语言的原则：①使用准确的当代语言，不要使用古僻艰深的词句；②文句须简明扼要，既排除与解题无关的陈述，又不要遗漏解题的必要条件；③最好一句话说明一个概念，不要使用两个或两个以上的观念；④意义必须明确，不得暖昧或含糊，尽量少使用双重否定句。(3)针对题目表达的原则：①尽量避免主观性和情绪化的字句；②不要伤害被试感情，避免涉及社会禁忌或隐私；③避免诱导和暗示答案；④避免令被试为难的问题。(4)针对题目理解的原则：①题目应有确切答案，不应具有引起争议的可能；②题目内容不要超出受测团体的知识和能力范围；③题目的格式不要引起误解。
三、题目的分类
1.题目的种类很多，根据被试所作出的反应（回答）方式进行分类，可以分为提供型和选择型题目。
◎提供型题目：要求被试提供答案，如问答题、填充题。另外，各种操作性题目，如画图、表演、完成某项任务、回答问题等，都可以算做提供型题目。◎选择型题目：要求被试在提供的备选答案中选择正确答案，如是非题、匹配题、选择题。
2.☆几种不同形式的测题举例？(P46表4.2) ①问答题例。指示语：试以2000字说明下述问题：1.比较问答题和客观题的优劣；2.解释进行课堂测量工具项目分析的理由。②填充题例。指示语：在每个空格内填上合适的字句：1.客观测量工具的客观性的关键是：。2.编制一个预测某种工作成功程度的测量工具的第一个步骤是：。③是非题例。指示语：如果该题正确，请在“是”上划“√”；若该题不正确，请在“否”上划“√”。是否 1.心理测量工具只是心理测量的方法之一。是否 2.社会赞许性反应是一种由于被试在一项特质上评了高分，而在另一项特质上也评高分的倾向。④匹配题例。指示语：请在右栏选择合适的答案的编号，填在左边每题的编号前。＿＿①团体智力测量工具 a.比奈
＿＿②个体智力测量工具 b.达尔文
＿＿③兴趣问卷 c.高尔顿
＿＿④人格问卷 d.欧提斯
＿＿⑤线性相关 e.皮尔逊
＿＿⑥感知觉测量工具 f.罗夏克g.斯皮尔曼
h.斯特朗 i.伍德沃斯
⑤选择题例。指示语：下面哪个答案最合适？＿＿1.“决不”、“有时”、“总是”等定语，常常会对毫无所知的被试产生暗示作用。我们称这些词语为a.普通修饰词 b.连词 c.反应定势 d.特殊决定词。
四、常用题目类型与编制要领
1.问答题。◇☆其主要优点在于它能够测量被试组织材料的能力、综合能力和文字表达能力，有的甚至可以测量评价能力和创造能力，而这些能力是其他客观题难以测量的。它的几大优势包括：⑴较好编制，题目无需太多。⑵不需准备备选答案，答案是由被试自己生成的。⑶可以避免被试随机猜测答案的可能。问答题的问题也很突出，其表现在：⑴问答题一般回答时间长，占分数大，因此题量不宜太大，所以能测量到的内容也有限，对行为的取样受到局限。⑵问答题的评分标准也不容易标准化。⑶问答题的评分容易受书写的整洁程度、个人成见等无关因素的影响。
如果需要采用问答题施测，题目编写者应该使问题及评分标准尽可能地客观，在编制时应注意以下几点：①问题应清楚而且明确，使被试了解答题要求；②题目的数量不要太多，以免变成速度测验；③在编制题目时应该有一个理想答案或一系列答题标准，同时对另外一些可接受的答案应有所规定和说明。
2.选择题。主要优点是：①适用范围广，从一般知识到复杂能力的测量均可使用；②题意明确，被试的反应简单，容易计分；③与其他形式的客观题相比，更少受猜测和反应定势的影响，评分较为客观；④选择题的题量可以较大，考察的范围更广，取样代表性较高。编制选择题的一般原则：①题干所提出的问题必须明确，使用简单而且清晰的用词。②不要将选项夹在题干中间，或者在题干前出现与问题无关的材料。③选项要简练，尽量将选项中共同的词句移至题干中。④除特殊情况，所有选项的长度应该大致相等，而且与题干的联系要紧密。⑤避免在题目中出现帮助受测者猜测正确答案的线索。⑥对于人格和态度的测量工具，题干的陈述应该不带任何倾向性。⑦如果选项是数字、日期、年龄等有逻辑顺序的材料，则最好仍按顺序排列，否则随机排列。⑧答案在选项中的位置应当随机出现，没有任何规律，避免被试猜测。
3.是非题。
◎反应定势：就是指部分被试在回答问题时，其答案的选择建立在题目的形式或位置上，而不是建立在题目内容的基础上。
◇是非题仅有两种答案，即使猜测，也有50％答对的可能性。如果还有其他额外的线索，猜对的可能性还会更高。弥补这一缺陷的方法之一，是加大题目数，使每一题目分数的偶然性对总分的影响相对减小。
是非题的长处：能很快书写和阅读，因此题量可以较大，便于广泛取样；记分也比较客观。在能力测验中，是非题多用于只需快速粗略判断被试能力的情况。在人格测验中，多用于只需判断一般普遍行为的问卷中。
编写是非题时要注意：①测查的内容应以有意义的事实、概念或原理为主，不要考察被试对无关紧要的问题或琐碎的细节的辨别能力。②每道题只能包括一个重要的概念，避免两个以上的概念出现在同一题目中，造成“半对半错”或“似是而非”的情况。且还要把各个概念放在题干的重要位置上。③决定一个题目是否正确，应以重要的概念为基础，不要着重于对次要的或琐碎的观念的判断。④除特殊情况，尽量避免否定的叙述，尤其要避免双重否定的叙述。⑤测验中正确的题目与错误的题目，它们的长度、复杂性应尽量一致。⑥正确的题目数与错误的题目数应该基本相等，两种题目应按随机方式排列。
4.匹配题。匹配题可以说是选择题的一种变式。匹配题一般包括多个反应项和多个刺激项,用反应项来匹配刺激项。匹配题有完全匹配和不完全匹配两种形式。
优点：匹配题容易编制，而且可以在短时间内测量大量相关联的材料，覆盖面较广。缺点：它一般只能测量简单记忆的事实材料或概念关系，并且要求编制的选项必须是同质的。
☆◆对编制匹配题的一些建议：①刺激项目和反应项目应该分成两列，通常反应项安排在右边；②配对数目不可过多或过少，最好使用不完全匹配，使反应项数目多于刺激项数目，并且最好不限制每个反应项被选择的次数，这样可以降低猜测的概率；③匹配题的反应项与刺激项，其性质必须相近；④应对匹配方法、匹配的依据加以明确的规定和说明，同时说明反应项可以被选择的次数；⑤同一组的反应项与刺激项最好印在同一页纸上，以免造成答题时间的浪费；⑥反应项与刺激项应以不同形式的序号加以标识，以免混淆。
5.填充题。☆◆编制填充题时应注意：①最好采用问句形式；②使用直接问句的形式，可避免产生对题意的误解；③如果是填空形式，填充处不可太多。过多空白会使题意不明确；④每题最好只有一个答案，答案最好简短而具体，有利于评分。
6.操作性测量形式。在很多情况下，操作的方法和过程是重要的测量目标，而这是纸笔测验无法测量的，这时可以采用操作性测量形式◎。操作性测试题通常分为着重过程和着重结果两种形式。
操作性测试有多种不同的分类方法，按测试情境的真实性程度可分：①纸笔的操作性测试：虽用纸笔但偏重于模拟情境下知识的应用，如编制某项操作计划、步骤、注意事项等，如公文筐测验；②模拟操作测试：强调正确的程序，被试需要在模拟情境下完成与真实活动相同的动作，如驾驶员的考核等；③工作样本操作测试：其真实性最高，但是是在有控制的条件下去完成的。如司机在标准场地内的考核。
设计操作性测试题的主要原则有：①明确所要测量的目标，并将其操作化。即要进行工作分析，辩认出操作中最重要的因素，找出具有代表性的工作样本。②要建立作业标准，规定通过此项作业的最低标准。③选择合适的真实性程度。通常情况下，真实性程度越高，模拟的代价越大。④指示语简单明确，让被试知道要干什么和在什么条件下去做。⑤有明确的计分方法。
◎作品量表：一般包括一系列按顺序排列的不同作业程度、水平、质量的标准样本，评分时参照这些标准样本对被试结果进行评分。
7.面试。缺点：①面试的考核缺乏心理测量学的严格性，易受考官的个人偏见或歧视的影响；②由于面试既要看应试者对问题回答的内容、质量，还要看整个面试过程中的行为表现，如情绪紧张度、应变能力等，更加大了面试记分的难度。面试效果的好坏往往取决于面试考官。面试应注意：①面试考官必须对面试主题有充分的了解，对于所要求的反应有清晰的认识；②用于描述或评定被试反应的词语，必须具体化，避免模糊不清的陈述。
第三节题目的编排
◇题目选择和编排过程包括定性的逻辑分析和根据预测的结果进行的定量分析。
一、题目的选择
1.◇对题目进行初步选择的主要依据是：题目本身的性质、对预期测量目标的可测量程度。
2.☆题目选择的步骤包括：⑴检查题目是否符合细目表中某一单元格内的要求。⑵根据细目表对各部分所要求的比例选择适当数量的测试题，使测量工具尽量覆盖整个细目表的内容。⑶检查题目是否叙述明确清楚，是否提供了额外线索。⑷检查题目十分适合将要施测的对象和施测的条件。⑸检查题目的难度是否恰当。一般来说，难度为0.50较为合适。⑹检查所选择的题目是否彼此独立，没有重叠，即回答某一问题所需的知识与能否回答其他问题无关。
二、题目的编排
◇题目编排的原则包括：⑴将测量相同因素的测试题排列在一起。⑵尽可能地将同一类型的测试题组合在一起。⑶难度测验的题目应按由易到难排列。这样可以鼓舞被试的士气，避免某些被试一开始就因较多题目回答不出而失去信心。⑷对于人格测验，应尽量避免将测量同一特质的题目编排在一起，防止被试猜测出题目所要测查的因素。
三、测试题的预测试和分析
◎预备测试题：测试题编排完成并不意味着这项测量工具的编制就此完成。前面对题目的选取只是依靠编写者的主观经验，题目的效果如何还需要进行定量的客观分析。这时的测试题还只能叫做预备测试题，还需要获取被试对这些题目的反应的材料，为进一步筛选题目和为编排测量工具提供客观依据。
◎预测试：必须将预备测试题对一定规模的小样本被试进行施测，获得数据以进行校验、修订。这一过程称为测试题的预测试。
◎题目分析：测验数据收集上来之后，应该利用这些数据对题目进行分析，删除不好的题目或对题目进行修改，这个过程称为题目分析。具体内容包括对题目的项目分析和对测验信度、效度指标的检查。
对测试题的预测试应注意以下问题：⑴预测试对象必须和将来正式测试的对象相似；⑵预测试的实施过程与情境应力求与将来正式测量工具实施时的情境相似；⑶预测试的时限可稍宽些，最好使每个被试都能将题目答完，以便搜集充分的反应资料，使统计分析的结果更为可靠；⑷在预测试过程中，应将被试的各种反映情况随时加以记录。如，记录在不同时限内一般被试所完成的题目数、题意不清之处、被试的态度等，以便在在修改测验时作为参考。
预测试完成后，可以根据预测结果进行题目分析，对每个题目的具体分析称为项目分析，主要是指根据题目的难度、区分度、备选答案的合适度等数量指标来对题目进行分析。
第五章人事测量的实施与计分
第一节实施测量操作的要领与误差控制
人事测量实施的最基本要求是，使所有的应试者都在相同的条件下表现出自己的真正行为。
一、测量的操作程序
1.标准化指示语。在施测过程中应该使用统一的指示语。◎指示语是在测量实施时说明测量进行方式以及如何回答问题的指导性语言。指示语通常有两种：一种是对被试的，另一种是给主试的。前者应该力求清晰和简单，向被试说明应该做什么，即如何对题目作出反应。
2.测验时限。大多数典型作为测验是不受时间限制的，如人格测验。大多数测验既要考虑反应得速度，也要考察解决有较大难度题目的能力，在能力和成就测验中所使用的时限，以大约90%的被试能在规定时间内完成测验为标准。
3.测验的环境条件。
二、主试的职责
1.◎主试:也称考官或主考人，是控制测试进程的主要人员。主试的经验如何往往会对测验的结果产生影响。
◇ ☆主试应做以下工作：⑴测验前的准备工作.①预告测验；②熟悉测验指示语；③准备测验材料；④熟悉测验的具体程序；⑤确保

满意合适的测验环境。⑵测验中主试的职责。测验中主试的职责是按照指示语的要求实施测验，在被试询问指示语意义时，作进一步澄清，但注意不要作任何暗示。在测验时，主试还要注意不要讲与测验无关的话，并能够对测验中的特殊情况作出灵活的解决。⑶建立协调关系。协调关系指的是主试和被试之间一种友好的、合作的、能促使被试最大限度地做好测验的一种关系。建立协调关系就是要求促使被试尽可能地对测验感兴趣，遵从指示语，认真合作地进行应试。主试都应该采取热情、友好并且客观的态度，这是建立协调关系的前提。

三、测量实施过程中可能导致误差的各种影响因素：

1.主试对测量结果的影响。☆测量结果往往会受到主试的各方面因素的影响：⑴主试的人格特点。主试的不同特点对测验的实施及测验的评分等各环节都有影响。⑵主试的期望。罗森塔尔效应：在有些情况下，实验者所获得的资料及实验结果会受其本身期望的影响，这种现象称为罗森塔尔效应，又称做实验者期望误差。

2. ☆被试特点对测量结果的影响：⑴测验的技巧与练习因素。◎练习效应：有不少研究发现，应试者参加相同或重复的测验，会由于练习效应而使测验成绩提高。⑵焦虑和动机因素。①应试动机；②测验焦虑。◎焦虑是一种不愉快的、表现为焦急、恐惧和紧张的情绪体验，它主要是由于对可能出现的结果的担心或对应付这一结果的能力的担心而造成。大多数人都在测验前和测验中感到焦虑，故又称测验焦虑或考试焦虑。⑶反应定势。◎反应定势也成为反应的方式或反应风格，简单地说，就是每个人回答问题的习惯方式。☆影响测量结果的反应定势主要有以下几种：①求“快”与求“精确”的反应定势。②偏好正面叙述的反应定势，又成为肯定反应定势，克伦巴赫发现。③偏好特殊位置的反应定势。吉尔福特认为，被试如果完全不知道选择题的正确答案，则不会以完全随机的方式来决定该选择哪一个选项，而有偏好某一个位置的选项的倾向，而有些测验编制者也存在偏好某个位置的反应定势，这些现象称为位置定势。④偏好较长选项的反应定势。⑤猜测的反应定势。

四、猜测的校正

1.★猜测修正的公式：S=R-W/(n-1)，其中，S是正确分数；R为被试答对的题目数；W为被试答错的题目数；n为选项数目。

2. ☆猜测修正的优缺点。优点：⑴修正公式可避免减低测验的信度。⑵修正公式可以反映被试真正的能力和水平。⑶使用修正公式对那些不能答完全部试题的被试来说比较公平。

缺点：⑴公式假设不成立，因为被试答错试题，并非完全瞎猜。⑵猜测修正无实质作用。⑶未采用猜测修正对信度并无重大影响。⑷完全不许猜测与实际生活不符。

第二节实施测量计分的要领与误差控制

检验客观与否，可以以两个或两个以上受过训练的合格评分者所评结果之间的一致性作为指标。一般情况下，受过训练的评分者之间的平均一致性达到90%以上，我们就认为计分是客观的。

一、计分的一般程序

1.◆☆计分的基本步骤：⑴记录反应。及时和清楚地记录被试的反应。⑵检索标准答案。标准答案有时又称计分键。⑶反应和标准答案的比较。

2.◇问答题的主要缺点是评分不够客观，也就是说问答题的计分经常受到评分者的情感、态度的影响。问答题中常见的误差有：宽容定势和晕轮效应。

3.◎宽容定势：指主试的计分过于宽松，即使没有回答出题目所要求的答案，评分者也给予较高的分数。

4.◎晕轮效应：指给予被试某道题较高分数仅仅是由于被试在另外一些试题上获得了高分，也就是说对被试的一般印象影响到具体某个问题的评价。

5.◎整体计分：就是评分者根据总体印象给答案评一个总分。整体计分在实际中应用较为普遍。

6.◎分析计分：是给问答题的不同部分分派不同的权数，按照各部分的要求对答案中所包括的信息和技能评分，最后将各部分的权数和得分组合起来得到该问答题的分数。

比较整体计分和分析计分？(回答上面的名词，再加以说明)

7.◇客观题的一个主要优点就是计分简单、客观。

8.不同的反应依据主试认为的重要性不同也可以给予不同的权数，我们还可以根据被试回答问题时的确定程度给予不同的权数，这叫做“信心权数”◎。

第六章人事测量结果的解释

人事测量的解释不同于测量实施本身，它们是测量中两个不同的、相对独立的成分。测量的解释是一个相当复杂的系统程序。

第一节解释的概念：为什么测量的实施与解释相分离

1.◎原始分数：是通过将应试者的反应与标准答案相比较而直接获得的，其本身并不具有多大的实用意义，而只是一个理论上的过渡值。

2.人事测量的目的在于评价和比较应试者各方面的素质和特点。

3.标准分：原始分数通过与常模的比较，可以转换成等值的导出分数，叫做标准分。

4.常模参照解释：由测量的原始分数通过与常模的对照得到可供比较的导出分数的过程，就是测验分数的解释形式之一，称为测量分数的常模参照解释。

5.效标参照解释：测量分数的另一种解释方式是参照效标的分数解释，即效标参照解释，它是依据外在效标作为标准来对应试者的分数进行解释。

6.☆常模参照解释与效标参照解释的区别在于：常模参照解释是将应试者的成绩与同类群体的其他人（常模样本）的成绩进行比较，而效标参照解释是将应试者成绩与外在效标（如二级技工的标准）进行比较。

第二节常模与基于常模的解释

一、如何选择常模样本

1.确定常模样本的过程包括：确定一般总体、确定目标总体、确定常模样本这三个步骤。

测验性质的不同，文化教育水平不同，性别的不同，都可能影响常模。

2.◆☆在确定和选择常模样本时应注意以下要求：⑴常模样本的构成必须明确。一个测验可能有许多常模样本。在选取常模样本时，首先要保证常模样本的所有成员是同质◇的，可以相互比较。另外，要在测验手册中对常模样本进行明确的说明，包括常模样本的构成和特性等。⑵常模样本必须是所测群体的代表性样本。⑶样本大小要适当。◆☆常模样本大小(即取样大小)由以下三方面决定：①常模样本大小决定于总体的规模。总体规模小，如只有几十个人，则常模样本应包括所有总体成员。如果总体数目大，相应的样本也应较大，一般最低不应少于30 个或100 个。②常模样本大小决定于总体性质。总体性质越复杂，越需要较大数量的样本。③常模样本大小决定于施测结果。 ◇样本大小适当的关键是样本要有代表性。⑷注意常模的时效性。常模必须定期修订。

3.◎取样是指从目标人群中选择有代表性的样本的过程。从统计角度看，取样的方法有随机抽样和非随机抽样两种。

4.☆在确定常模时，常用的取样方法有：⑴简单随机抽样； ⑵系统抽样。具体方法：假设总体数目为N，若要选择K分之一的被试作为样本，则可以把所有的人N分为N/K组，每个组选一个人，则刚好组成1/K的样本。或者把所有的人从1到N按序编号，把所有编号是K的倍数的人抽取出来，即可组成所需样本。需注意的是：在进行系统抽样时，分组和从组中抽取，或者是编号，都必须是随机的。⑶分组抽样；在总体数目较大，无法编号，并且总体成员又具有多样性的情况下，可以先将群体分为一定的小组，再从小组内随机抽样。⑷分层抽样。在确定常模样本时，最常用的是分层抽样方法。它是先将目标群体的某一种变量(如年龄)分成若干层次，如R个层次，再从各层次中随机抽取若干个案。各层次的个案总和即为样本个案数目。分层抽样分为两种方法：①分层比例抽样法：如果各层抽取的个案数目ni是根据各层的个案数目Ni占总体数目N的比例而决定的。ni＝Ni/N×n。②分层非比例抽样：有些层次的重要性大于其他层次，这时应该采用非比例抽样方法。

二、常模的类型及解释

1.◇常用的常摸有发展常模、百分位常模和标准分数常模。

2.百分位常模包括百分等级、四分位数和十分位数。百分等级的计算关键在于确定在常模样本中分数低于某一特别分数的人数比例，这可以分为两种情况：一种情况是对没有分组资料的数据分布求百分等级，公式为：PR=100-100×(R-0.5)/N，其中R为排名顺序，N为总人数。另一种情况是对有分组资料的数据求百分等级。公式：PR=100/N[(x-l)fp/h+cf]，其中，x为任意原始分数；l为该原始分数所在组的精确下限；fp为该分数所在组的次数；cf为l以下的累积次数；h为组距。

在分数量表上，相对于某一百分等级的分数点叫百分点或百分位数。

3.◇常见的标准分数有：z分数、Z分数、离差智商（IQ）、T分数、标准九分等。由原始分数转换的标准分数，又分为线性转换和非线性转换两种。

4.z分数为最典型的线性转换的标准分数，它是指以标准差为单位所表示的原始分数与平均数的差距。

5.◎正态化的标准分数：当原始分数不呈正态分布时，也可以进行面积转化，而使分数转成为正态分布。由这种方式所得到的分数就叫正态化的标准分数。为了使分数正态化，必须有某种依据能假定所测特性的分数事实上应该是呈正态分布的。

◎正态化过程：先将原始分数转化为百分等级，再将百分等级转化为正态分布上相应的离均值，并可以表示为任何平均数和标准差。

6.T分数：一词最早是由麦柯尔1939年提出以纪念推孟和桑代克的，不过当时仅用于12岁儿童的团体，是根据某一特殊常模样本而不是在一般意义上定义的。现在有人用Ｔ分数来表示任何正态化与非正态化的转化标准系统，只要其平均数为50，标准差为10即可。

7.标准九分：是另一较知名的标准分数系统，其量表是一个9

三、常模的表示方法

1.常摸表示的方法主要有两种：转化表和剖析图。最简单而且最基本的表示常模的方法就是转化表，也叫◎常模表，它由原始分数表、相对应的导出分数表和对常模样本的具体描述等三个要素组成。☆根据转化表进行解释时，须注意：常模转化表总是特异性的，即一个转化表总是来自特定的常模样本的，这种转化表只能表示被试在常模样本内的相对等级，若要依此作出某种结论或预测，需要进一步的信度和效度的依据。

2.◎剖析图是测验分数的转换关系用图形表示出来的一种模式图。使用剖析图作解释，要求各个分测验所使用的常模样本必须相同，否则各分测分数之间无法比较。☆要注意的一个问题是：使用剖析图容易夸大各个分测验间分数的差异。为避免这个问题，有些剖析图注明了多少距离代表两分数间差异显著，使用者可以依此很快地确定某对分数间是否存在差异。另一种方法是将被试分数用一段范围表示，假如范围不重叠，表明分数间有显著差异存在。

第三节效标与基于效标的解释

◇效标参照测验关心的是应试者是否达到了某种标准或效标。参照效标的分数解释分为内容参照分数的解释及结果参照分数的解释两种类型。

一、内容参照分数的解释

1.内容参照分数的测量目的是确定应试者对某个确定材料内容或技能的掌握和熟悉程度的分数。

☆编制内容参照测量表的关键是预先制定一个判断应试者是否已掌握某种内容或技能的熟练程度的标准。这种标准可以通过掌握分数和正确百分数来表示。掌握分数，最简单的掌握分数的标准是定一个判别应试者是否通过或掌握的最低分数正确百分数，表明被试在测验中答对题目的比例。

二、结果参照分数的解释

◎结果参照分数：是将效标材料直接结合到测验结果的解释过程而进行评价的分数。预测性测验往往适合用结果参照分数进行解释。

第七章人事测量的关键技术：信度

第一节人事测量的可靠性—信度

一、信度的定义

1.◇信度主要是指测量结果的可靠性或一致性。

2.系统误差:量具本身有误差，这种误差是必然的，但却是有规律的。随机误差：每一次测量都可能有操作上的差异，或者由于不可预见的外界因素的影响，从而造成误差，这些误差也是难免的，但却是毫无规律的。

二、信度的作用

1.◎信度系数：信度高低的指标通常以相关系数表示，称为信度系数。信度系数一般是同一样本所得的两组资料的相关，在理论上表示为实得分数与真实分数相关的平方。rxx=rxr2=ST2/SX2，其中rxr=ST/SX有时也称为信度指数，它是真实分数标准差与实得分数标准差的比率。信度系数的分布是从0.00～1.00的正数范围。

2.◇一般来说，当rxx<0.70 时，不能用测验对个人作评价，也不能在团体间作比较；当rxx>0.70 时，可用于团体间比较； rxx>0.85时，可用于鉴别个人。rxx指信度。

第二节如何评估人事测量的信度

一、重测信度

1.◎重测信度又称为稳定性系数，它的计量方法是采用重测法：用同一测验，在不同时间对同一群体施测两次，这两次测量分数的相关系数即为重测系数。

重测信度所考察的误差来源是时间的变化所带来的随机影响。在评估重测信度时，必须注意重测间隔的时间。对于人格测验，重测间隔在两周到6个月之间比较合适。

☆在进行重测信度的评估时，还应注意以下两个重要问题：⑴重测信度一般只反映由随机因素导致的变化，而不反映被试行为的长久变化。⑵不同的行为受随机误差影响不同。

二、复本信度

1.◎复本信度又称等值性系数，它是以两个测验复本来测量同一群体，然后求得应试者在这两个测验上得分的相关系数。复本信度的高低反映了这两个测验复本在内容上的等值性程度。两个等值的测验互为复本。

2.◇计算复本信度的主要目的在于考察两个测验复本的题目取样或内容取样是否等值。复本信度也考虑两个复本实施的时间间隔。

3.☆复本信度的主要优点在于：⑴能够避免重测信度的一些问题，如记忆效果、练习效应等；⑵适用于进行长期追踪研究或调查某些干涉变量对测验成绩影响；⑶减少了辅导或作弊的可能性。☆复本信度的局限性在于：⑴如果测量的行为易受练习的影响，则复本信度只能减少而不能消除这种影响；⑵有些测验的性质会由于重复而发生改变；⑶有些测验很难找到合适的复本。

三、内部一致性信度

1.◎内部一致性信度系数主要反映的是测验内部题目之间的关系，考察测验的各个题目是否测量了相同的内容或特质。内部一致性信度又分为分半信度和同质性信度。

2.分半信度系数是通过将测验分成两半，计算这两半测验之间的相关性而获得的信度系数。测验愈长，信度系数愈高。同质性信度是指测验内部的各题目在多大程度上考察了同一内容。同质性信度低时，即使各个测试题看起来似乎是测量同一特质，但测验实际上是异质的，即测验测量了不止一种特质。同质性分析与项目分析中的内部一致性分析相类似。

四、评分者信度

1.◎评分者信度：是指不同评分者对同样对象进行评定时的一致性。最简单的估计方法就是随机抽取若干份答卷，由两个独立的评分者打分，再求每份答卷两个评判分数的相关系数。这种相关系数的计算可以用积差相关方法，也可以采用斯皮尔曼等级相关方法。

2.如果评分者在三人以上，而且又采用等级记分时，就需要用肯德尔和谐系数来求评分者信度。

3.信度估计方法及其与测验复本和施测次数的关系：

所需次数

所需复本数

一

二

一

分半信度，同质性信度

复本信度（连续施测）

二

重测信度

重测复本信度

4.各种信度系数相应的误差来源（这里都是随机误差）：

信度系数类型

误差方差来源

重测信度

复本信度(连续施测)

重测复本信度

分半信度

同质性信度

评分者信度

时间取样

内容取样

时间取样和内容取样

内容取样

内容的异质性

评分者间差异

第三节影响信度的因素

对测验的信度造成影响的因素主要有：样本团体的性质、测验的长度、测验难度。

一、样本团体的性质对信度的影响主要有以下三个方面：⑴样本团体的分数分布。分数分布越广，信度系数就相对越高，分数分布越窄，信度系数就会越低。⑵样本团体的异质性。信度系数还会受到样本团体异质性的影响。一般来说，取样团体的异质性越大，信度系数就相对越高。⑶不同团体间能力水平的差异。

二、测验长度对信度的影响：信度还会受测验长度的影响。一般来说，测验越长，信度值越高。一方面，测验越长，题目取样或内容取样就越充分，结果就越可靠。另一方面，较长的测验也不容易受到猜测的影响。

三、测验的难度。只有当测验的难度水平能够使测验分数分布范围最大时，测验的信度才会比较理想。测验的长度和难度会共同起作用。

第八章人事测量的关键技术：效度

第一节人事测量的有效性

一、◇测量的效度就是指测量的有效性，即能测量到所要测量的目标的程度。

二、◎效度的理论定义：从测量理论角度讲，效度可以定义为：与测量目标有关的真实分数方差与总分方差的比率。“有关真实分数方差”是由测验所要测量的目标变量所产生的方差。效度的定义用公式可以表示为：rXY=SV2/SX2，其中rXY为测验效度；SV2为有效方差；SX2为总方差。

二、★☆信度和效度的关系：信度主要是指测量结果的可靠性或一致性。效度指测量的有效性，即能测量到所要测量的目标的程度。差别在于：考虑的误差不同。①信度考虑的是随机误差的影响；②效度的误差则还包括对测验目的来说无关的变量所引起的系统误差。误差方差低（即信度高）并不保证效度就一定高；但效度高的话，信度必然要高。信度是效度的必要条件。

三、效度的性质.效度是连续性的，效度高低只是程度上的差别，它不是“全有”或“全无”的变量。我们应避免评价某一测验的结果为“有效”或“无效”，而应区分效度较高或较低。

第二节如何评估人事测量的效度

根据评估效度方法的不同，效度可以分为内容效度、构想效度和效标关联效度这三类。

一、内容效度 1.◎内容效度：是检查测验内容是否是所欲测量的行为领域的代表性取样的指标。例如，成就测验往往采用内容效度的评估方法。2.☆内容效度分析时要注意两方面的问题：⑴应避免将测验取样的行为领域过于泛化。⑵要注意测验分数种无关因素的影响。

3.内容效度的确定一般没有可用的数量化指标，只能靠推理和判断来进行评估。◇◆较好的内容效度依赖于两个条件：⑴测验内容范围明确。⑵测验内容的取样有代表性。

4.内容效度最适合于评估教育和职业成就测验。◇效标参照测验应用的基本条件是具备足够的内容效度。

二、效标关联效度

1.◎效标关联效度：又称为效标效度，反映的是测验分数与外在标准(效标)的相关程度，即测验分数对个体的效标行为表现进行预测的有效性程度。

2.◇效标是考察测验效用的外在参照标准。

3.◎预测效度的效标资料往往是测量结束后隔一段时间才获得，它反映的是由测验分数对任一段时间间隔后被试行为表现的预测程度。预测效度适用于那些对人员进行选拔、分类和安置的人事测验，这些测验需要对应试者将来的工作绩效进行可靠的预测。

4.◇同时效度的效标材料可以和测验分数差不多同时搜集。

5.要测量效标，就必须把效标行为转化为某种可以操作的测量指标，以便进行比较。这种操作的测量指标就称为效标测量◎。效标的概念可以细分为观念效标（即效标的实质概念内容）和效标测量（效标的具体度量方法）。