评估印尼“K-13”STEM课程实施调查问卷的信度和效度
原文作者 R Oktavia, Irwandi, Rajibussalim, M Mentari, and I S Mulia
单位Syiah Kuala University
摘要:本研究旨在调查STEM相关学科的教育者如何在课堂上实施K-13教育。2018年3月,STEM研究中心Unsyiah(STEM.id)就STEM(科学、技术、工程和数学)教育中印尼课程Kurikulum 2013(K-13)的实施举行了论坛小组讨论(FGD)。FGD的参与者包括班达亚齐和亚齐贝萨尔地区60名STEM相关学科的教育者。自2013年7月实施K-13以来,还未开展调查研究来评估其在亚齐的实施情况。本研究旨在开发调查工具,以调查参与者对STEM教育中K-13实施的理解和意见以及他们对FGD的满意度。受试者满意度问卷中有8个项目具有很高的效度,在0.632~0.824之间。关于K-13实施情况的问卷有9个项目有效,有效值范围为0.584至0.821。对于内部一致性可靠性,FGD满意度响应的克朗巴赫alpha;为0.838;同时,克朗巴赫对K-13反应实施的alpha;为0.882。结果表明,问卷具有良好的内部一致性、信度和效度。
关键词:STEM教育;信度;效度
一、引言
STEM研究中心Unsyiah(STEM.id)是Syiah Kuala大学的一个中心,该中心发起活动,倡导开发科学、技术、工程和数学(STEM),使STEM相关学科教室中的学习过程变得更加有趣和有趣。这些活动包括开展调查和焦点小组讨论(FGD),以收集关于如何在K-13中整合基于调查性科学学习环境(ISLE)的STEM课程的信息,开发基于ISLE的STEM学习模块,为教师和学生举办基于ISLE的STEM课程研讨会,开发网站,为实施基于小岛的STEM模块、学生夏令营等提供资源。为STEM相关科目开发综合教学方法的目标是“学习很有趣”。作为美国国际开发署(USAID-PEER)奖资助的当前项目“综合科学教学中的综合岛,以提高科学教师的科学教育能力”中的一个项目,STEM.id于2018年3月就STEM教育中Kurikulum 2013(K-13)的实施举行了一次FGD会议,来自班达亚齐市和亚齐贝萨尔区的60名STEM相关教育工作者和教育政策制定者参加了会议。
FGD旨在调查STEM相关学科的教育工作者理解并能够实施印度尼西亚国家学校课程(Kurikulum 2013或K-13)规定的标准的程度。更重要的是,本研究旨在调查中学教师在STEM相关科目(如物理、化学、生物和数学)中实施K-13所面临的挑战。
由于ISLE是由美国国际开发署(USAID-PEER)项目的美国政府合作伙伴Eugenia Etkina教授[1]为物理课程开发的,因此收集的一些信息将专门与物理课程相关。自2013年7月实施以来,没有开展任何调查研究,以评估K-13在亚齐的实施情况。因此,作为本研究中应用的数据收集技术之一,在烟气脱硫结束时,对STEM教育中K-13的实施情况以及烟气脱硫参与者的满意度进行了调查。开发调查问卷是为了衡量参与者对STEM教育中K-13实施情况的理解和意见以及他们对FGD的满意度。在这篇文章中,将报告经典测试理论(CTT)对这些工具的有效性和可靠性的分析结果。
二、文献综述
本文报道的心理测量学分析仅涉及经典测试理论(CTT)分析。CTT基于以下基本原则,即受访者在回答问卷时得到的分数(观察到的分数)是真实分数和一些错误的总和:
? = ? ?
?是调查得到的分数;?是真实的分数;?是误差[2]。CTT中评估调查质量的两个常用维度是有效性和可靠性。下文将介绍关于这两个维度的研究。
在许多研究[3,4,5]中,有效性和可靠性作为评估调查质量的重要性已经得到了阐述。术语有效性表示测量其意图的有效程度。有效性关乎调查问卷在多大程度上满足了某些标准,以此判断问卷的质量。有效性差的问卷表示其中的某些项目没有测量好应该得到测量的内容。换句话说,问卷的有效性代表了问卷测量其对象的准确性。测量的效度有几种类型,包括表面效度、内容效度和结构效度。下文介绍了这些类型的有效性。
(一)表面效度
表面效度表示对问卷目的明确性的评估。这意味着,如果问卷的目的或结构能让调查对象明确,那么问卷具有较高的表面效度。研究人员将让一些专家审查该问卷是否符合该项标准。
(二)内容效度
内容效度表示对内容的适当性及其呈现方式的评估。在本研究中,通过建立项目与科学课程中K-13的实施之间的联系以及FGD的有效性来确保内容的有效性。使用Dillman的定制设计方法[6],创建了问卷蓝图。可以通过要求内容领域的专家审查蓝图和工具中的项目来评估内容有效性。在本研究中,我们要求K-13和STEM教育的专家审查有关在STEM教育中实施K-13的内容。这些专家获得了测试蓝图中指定的内容区域列表以及测试项目。然后,专家们被要求说明他们是否同意每个项目都与蓝图中所示的内容相匹配,以及这些项目的表示方式是否能够衡量预期的内容。
(三)结构效度
结构效度是衡量工具中结构恰当性的尺度。根据Westen amp; amp; Rosenthal的观点[7],尽管其对问卷质量的测量非常重要,但没有简单的公式来表示问卷有效的程度。研究人员用于获得结构有效性度量的最常见计算是通过呈现一个结构的度量与许多其他度量之间的相关性,这些度量理论与被称为“收敛有效性”的结构相关,或者独立于称为判别有效性的结构而变化[7]。在本文中,通过计算皮尔逊相关系数来描述我们调查中使用的工具的结构效度? 调查对象对某个项目的回答分数及其总分。皮尔逊相关系数也称为皮尔逊乘积矩相关系数(PPMCC),计算如下:
r是皮尔逊相关系数,n是有效回答的数目,y表示一个项目的分数,z 表示每个回答有效的调查对象的总分;假设两个变量(y和z) 呈正态分布。表1给出了项目有效性系数的标准。
表1.有效性系数的说明[8]
如果测量的有效性代表测量的准确性,那么问卷的信度表示从该问卷得到的结果的一致性。信度一词最早由斯皮尔曼于1904年提出,他将其定义为真实分数方差与观察分数方差之间的比率[9]。通过评估工具的可靠性,可以解释分数一致性的几个标准。有不同的方法来评估问卷的信度,包括:第一,重测信度,通过计算两次或两次以上问卷的得分与相同参与者之间的相关性来评估;第二,平行形式可靠性,通过创建两种或两种以上具有相同内容的问卷形式,然后同时向相同的受试者管理这些形式来估计;第三,通过比较两名或两名以上评价者的回答的得分来估计调查对象回答的信度;比较用于确定调查对象的估计是否一致;第四,内部一致性信度,用于判断同一测试中各项目结果的一致性。正如Tang、Cui和Babenko [9]所解释的,关于内部一致性可靠性存在不同的观点。在不忽略内部一致性可靠性的其他解释的情况下,在本CTT分析中,将使用Haertel[10]的内部一致性可靠性定义,即基于单次实施的问卷可靠性估计。
根据Tang、Cui和Babenko[9]的说法,CTT下有几种内部一致性可靠性度量,包括Cronbach 的alpha;、Revelle 的beta;和McDonald 的? ℎ ,和Sijtsma的ECV。在这些度量中,克朗巴赫alpha;是最常用的度量。在我们的分析中,克朗巴赫alpha;系数将被用作问卷内部一致性可靠性的度量。克朗巴赫[11]引入的系数alpha;的数学表达式如下所示:
? 是真实可靠性的下限估计,n是测试X中的项目数,? ? 2是测试X的观察得分方差,且? ? 2是第i项的差异。表2给出了问卷内部一致性可靠性系数的标准。
表2.内部一致性可靠性系数的说明[8]
三、调查方法
FGD期间管理的调查问卷是根据创建的蓝图制定的,以确定要测量的结构和内容。本次调查中有两种结构措施:K-13(K-13结构)的实施,烟气脱硫的有效性,以引起对STEM教育和ISLE(烟气脱硫结构)的关注。
为每个结构制定了10个项目来衡量内容,包括:参与者在课堂上理解和实施K-13的程度;支持系统是否可用于实施K-13课程;执行K-13的容易程度;他们如何理解STEM教育;他们如何将STEM整合到基于K-13的课程中;他们如何理解小岛;他们如何考虑在物理课上使用ISLE;;烟气脱硫如何有效地启发他们对STEM和ISLE的理解。
为了确保工具的内容效度和表面效度,我们请STEM教育和ISLE的两位专家对工具进行评估,并提出改进工具的评论和建议。经审查后,专家们对文书的修订版进行了评价。最终版本是已声明为构造和内容有效的版本。
本研究的参与者为32名教师和STEM教育工作者,他们参加了2018年3月由STEM.id举办的FGD。该调查在FGD期间进行。政府在FGD讨论会结束时进行了讨论。问卷中的每个项目都有五个预先编码的回答(利克特量表):1个表示强烈不同意,2个表示不同意,3个表示中立,4个表示同意,5个表示强烈同意。测量相同结构的项目被安排在同一组项目中。因此,有两组项目将在后面分别进行分析。下文表3列出了这些项目的一些例子(从印度尼西亚语翻译成英语)。
表3.问卷中项目的示例
在分析内部一致性效度和信度之前,进行了描述性分析,包括变量的正态性评估。由于样本量小于50,Shapiro-Wilk检验更合适[12]。CTT分析的结果,特别是我们的工具的内部一致性信度和效度将在下面讨论。
四、结果和分析
从各项目得分和总分的分布来看,我们发现FGD结构的平均总分为36.41分,标准差为6.257;K-13结构的平均总分为35.56分,标准差为8.758。研究还发现,超过一半的学生(56.2%)在FGD构建方面的得分为38-45分(最高50分);同时,54.1%的参与者的K-13结构得分为39-47分(最高50分)。在评估调查对象的趋势时,每个项目的平均回答范围为2.7813至4.1875。这些结果表明,大多数参与者倾向于同意这些项目。只有两个项目属于中性类别(项目FGD_3和FGD_6)。为了计算问卷中项目的内部一致性有效性,下表4和表5给出了Shapiro-Wilk检验统计数据。
表4.FGD项目的Shapiro-Wilk试验
表5.K-13项目和总分的Shapiro-Wilk测试
项目的Saphiro-Wilk统计均在0.5以上,p值小于0.05。结果表明,所有变量均为正态分布,因此皮尔逊相关系数适用于测量内部一致性结构效度。表6和表8给出了每个项目的皮尔逊相关系数值及其总分。
从表6可以看出,有两个项目不是有效项目。通过分析项目,我们发现这两个项目与其他FGD项目具有不同的性质。当我们从分析中排除这两个项目时,结果仍然支持其他项目具有很强的有效性值。回顾这些项目的陈述,我们发现这两个项目衡量了受访者对STEM和ISLE的知识,这是受访者的新术语;同时,其他项目纯粹询问他们对从FGD获得的信息的意见。皮尔逊相关系数和p值表明,倾向于同意问卷中其他陈述的受访者不同意这两个项目的陈述。为了解决这个问题,我们修改了表7中的项目。
表6.FGD项目的内部一致性有效性
表7.修改的项目
表8.K-13项目的内部一致性有效性
由于根据表1中的经验法则,K-13结构中的所有项目都是强有效的,因此没有对K-13结构中的项目进行修订。对于内部一致性可靠性,发现FGD问卷的克朗巴赫alpha;为0.838;同时,对于K-13问卷,响应数据的克朗巴赫阿尔法为0.882。如果我们将20个项目的所有响应合并,我们发现问卷的克朗巴赫阿尔法系数为0.848。根据表8中内部一致性可靠性值的解释,从这些结果可以确认问卷的内部一致性可靠性良好。
五、结论
根据本研究中进行的CTT分析,有两项不是很有效,需要修改。问卷的有效性和可靠性的内部一致性系数表明,该问卷质量良好,可作为衡量参与者对STEM教育中K-13实施的知识和意见以及FGD在启发参与者STEM和ISLE方面的有效性的工具。修订后的调查工具将在本报告编写几周后进行的未来调查中实施。我们将在下一篇文章中报告初始问卷和修订问卷的对比。
致谢
本研究完全由美国国家科学院和美国国际开发署提供资金,由美国国际开发署(USAID)主要奖项编号为AID-OAA-A-11-00012的美国国际开发署(USAID-PEER)资助,文章中陈述的任何观点、发现、结论和建议仅来自作者,并不总是反映美国国际开发署或美国国家科学院的观点。
参考文献
[1] Etkina E 2015 Millikan award lecture: Students of physics-Listeners, observers, or
collaborative participants in physics scientific practices? American Journal of Physi
剩余内容已隐藏,支付完成后下载完整资料
外文文献1
出处:Journal of Physics: Conference Series, 2018, 1088(1):1-7
原文:
Assessing the validity and reliability of questionnaires on the implementation of Indonesian curriculum K-13 in STEM education
Abstract. This study aims to investigate how educators of STEM-related subjects implemented K-13 in their classrooms. A forum group discussion (FGD) on the implementation of Indonesian curriculum known as Kurikulum 2013 (K-13) in STEM (Science, Technology, Engineering, and Mathematics) Education was held in March 2018 by STEM Research Center Unsyiah (STEM.id). Participants of the FGD consist of 60 educators of STEM-related subjects in Banda Aceh and Aceh Besar Districts. Since K-13 was implemented in July 2013, there is no survey study to evaluate its implementation in Aceh has been conducted. This study initiates to develop survey instruments to measure participantsrsquo; understanding and opinions regarding the implementation of K-13 in STEM Education and their satisfaction of the FGD. Eight items in participantsrsquo; satisfaction questionnaire are strongly valid with validity values range from 0.632 to 0.824. For the questionnaires on the implementation of K-13, nine items are valid with validity values range from 0.584 to 0.821. For internal consistency reliability, the Cronbachlsquo;s alpha of the FGD satisfaction responses is 0.838; meanwhile the Cronbachrsquo;s alpha of implementation of K-13 responses is 0.882. These results showed that the questionnaires have good internal consistency reliability and validity.
1. Introduction
STEM Research Center Unsyiah (STEM.id) is a center in Syiah Kuala University that initiate the activities to advocate the development of integrated instructions of Science, Technology, Engineering, and Mathematics (STEM) so that the learning processes took place in STEM-related subject classrooms become more interesting and enjoyable for students. The activities include conducting surveys and Focus Group Discussion (FGD) to gather information on how to integrate Investigative Science Learning Environment (ISLE)-Based STEM lessons in K-13, developing ISLE-Based STEM learning modules, conducting workshops for teachers and students on ISLE-Based STEM lessons, developing websites that provides resources to implement ISLE-Based STEM modules, summer camps for students etc. The slogan “learning is fun” becomes a goal in developing integrated instructional approaches for STEM-related subjects. As one of the programs in its current project titled “Integrated ISLE in Integrated Science Instructions to Improve Science Teachersrsquo; Abilities in Science Education” funded by the United States of America (USAID-PEER) Awards, STEM.id held an FGD on the implementation of Kurikulum 2013 (K-13) in STEM Education on March 2018 that was participated by 60 STEM-related educators and educational policy makers from the city of Banda Aceh and Aceh Besar District.
The FGD aims to investigate how well educators of STEM-related subject understand and are able to implement the standards mandated by Indonesian national school curriculum known as Kurikulum 2013 or K-13. More importantly, it is intended to investigate the challenges that the secondary school teachers have in implementing K-13 in STEM related subjects such as Physics, Chemistry, Biology, and Mathematics.
Since ISLE was developed for Physics Lessons by Prof. Dr. Eugenia Etkina [1], the USG-Partner of the USAID-PEER project, some of the information gathered will specifically relate to Physics courses. Since it was implemented in July 2013, there is no survey study to evaluate the implementation of K-13 in Aceh has been conducted. Therefore, as one of the data collection techniques applied in this study, surveys on the implementation of K-13 in STEM education and on the satisfaction of participants of the FGD were administered at the end of the FGD. The survey instruments were developed to measure participantsrsquo; understanding and opinions regarding the implementation of K-13 in STEM Education and their satisfaction of the FGD. In this article, the results of classical test theory (CTT) analyses on the validity and reliability of the instruments will be reported.
2. Literature Review
The psychometric analyses reported in this article only involve the classical test theory (CTT)analyses. CTT is based on the underlying principle that the scores that respondents got on respondingto an instrument (observed scores) is the sum of the true scores and some errors:
? = ? ?
where ? is the observed score; ? is the true score; and ? is the error [2]. Two common measures of the quality of instrument in CTT are validity and reliability. A discussion regarding these two measures is described in the following paragraphs.
The importance of validity and reliability as criteria of the quality of an instrument has been addressed in many studies [3,4,5]. The term validity denotes the degree to which an instrument measures what it purports to measure. The validity of an instrument specifies how well the instrument met the standards that were set by certain criteria to judge the quality of an instrument. An instrument that has a poor validity indicates that there are items in the instrument that do not measure what the instrument intends to measure. In other words, the validity of an instrument represents how accurate the instrument measure what it is intended to measure. There are several types of validity of a measurement, including face validity, content validity, and construct validity. Descriptions of these types of validity are presented below.
2.1. Face validity
Face validity represents the estimation regarding the clarity of the purpose of an instrument. It means a questionnaire has a high face validity if its purpose or construct is clear by the respondents taking it. Researchers will let some experts
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[594529],资料为PDF文档或Word文档,PDF文档可免费转换为Word
您可能感兴趣的文章
- 饮用水微生物群:一个全面的时空研究,以监测巴黎供水系统的水质外文翻译资料
- 步进电机控制和摩擦模型对复杂机械系统精确定位的影响外文翻译资料
- 具有温湿度控制的开式阴极PEM燃料电池性能的提升外文翻译资料
- 警报定时系统对驾驶员行为的影响:调查驾驶员信任的差异以及根据警报定时对警报的响应外文翻译资料
- 门禁系统的零知识认证解决方案外文翻译资料
- 车辆废气及室外环境中悬浮微粒中有机磷的含量—-个案研究外文翻译资料
- ZigBee协议对城市风力涡轮机的无线监控: 支持应用软件和传感器模块外文翻译资料
- ZigBee系统在医疗保健中提供位置信息和传感器数据传输的方案外文翻译资料
- 基于PLC的模糊控制器在污水处理系统中的应用外文翻译资料
- 光伏并联最大功率点跟踪系统独立应用程序外文翻译资料
