

英语原文共 14 页,剩余内容已隐藏,支付完成后下载完整资料
毕业论文(设计)
外文翻译
题 目 国家科学基金会衡量跨学科性的话题模型方法
国家科学基金会衡量跨学科性的话题模型方法
Leah G. Nichols
摘要
随着国家科学基金会(NSF)实施新的跨领域举措和计划,对评估这些实验在促进跨学科性方面取得成功的兴趣越来越大。衡量跨学科性的主要挑战是确定并限制了构成跨学科工作的离散学科。 NSF使用统计文本挖掘技术来提取主题框,最近制定了2000年至2011年期间颁发的所有奖项的主题图。这些新数据为评估提案的语言或内容提供了衡量跨学科性的新手段。 利用社会,行为和经济科学院作为案例研究,借鉴了NSF奖项的新主题模型,本文探讨了NSF组合中跨学科量化的新方法。
关键词:跨学科 主题模型 网络分析
介绍
促进跨学科研究(IDR)是国家科学基金会(NSF)的重点。 为此,NSF已经开展了诸如科学,工程和可持续发展教育(SEES)等几个基础范围的举措,并鼓励开发诸如耦合自然人类系统计划动力学等跨领导项目。 随着这些举措和计划的增长,有兴趣评估这些实验在培育IDR方面的成功。
虽然研究人员已经尝试了各种方法,但随着时间的推移测量IDR及其动态仍然是一个艰巨的任务。识别和测量IDR需要评估单个研究项目中多个学科的存在和整合,并且可以包括评估科学的投入,产出和过程(Wagner等,2011)。定性方法通常利用参与者观察,访谈和调查来表征多学科研究者团队内的过程和关系,并评估学科整合程度(参见,例如,Masse等人2008; Stokols et al。等人2003)。用于测量IDR的定量方法经常依赖于文献计量学和网络分析技术(参见例如,Porter和Rafols 2009; Rafols和Meyer 2008; Leydesdorff 2007)。引用分析,检查出版物参考列表中所代表的学科是最常用的方法之一(Wagner et al。2011)。
许多关于测量IDR的文献计量学文献集中在研究科学或出版物的产出(Wagner et al。2011)。 NSF奖励数据库通过检查研究投入(赠款建议和奖励)而不是产出(出版物)为测量IDR提供了独特的机会。研究建议包含比通常包含在出版物数据中更广泛的关于科学的人员,投入和科学过程的数据。研究出版物报告了正在进行的研究计划中出现的狭窄结果,并将报告的范围限制为具体的研究成果或结果。另一方面,专题报告描述了总体研究计划,通常会产生多个出版物。广泛的IDR计划可以导致从学科和跨学科角度出版的结果。因此,研究方案更好地包含了科学探究的“混乱”,并且可以提供更好的评估单位来衡量跨学科的互动和整合。
测量IDR的另一个主要挑战是确定并限制了构成跨学科工作的离散学科。 测量IDR假定了所有科学的一致性学科结构,然而IDR的表现本质上模糊了学科之间的界限(Wagner et al。2011)。 识别,理解和测量IDR需要对知识库进行反汇编和表征,从而为研究方法,理论和结论提供信息。 由于国家科学基金会是唯一一个支持所有基础科学的联邦资助机构,由科学组织组织,国家科学基金会的制度结构可以作为识别国际化学组织学科组成部分的粗略代理。 虽然NSF仅占联邦科学研究经费的12%(AAAS Intersociety Working Group 2011),但检查NSF奖励数据库可以对整个科学领域进行评估。
国家科学基金会最近创建了所有颁发的奖项和过去十年收到的建议的主题模型。 主题模型使用计算机算法挖掘和表征文本内容,并成为评估大量文本材料的流行分析技术。 潜在Dirichlet分配(LDA)是一种主题建模算法,用于识别大型文本的离散文档中的潜在主题(Bleiet al。2003)。 通过依靠文档结构自然分割文本语料库,LDA识别文档中最常共同出现的单词集(Hu 2009)。 由于LDA允许通过统计分析出现问题,因此对于“基本任务,如分类,新颖性检测,总结,相似性和相关性判断”(Blei et al。2003,p.993)尤其有用。
许多研究人员已经开始尝试用主题建模作为检查科学计量学问题的工具。 Rosen-Zvi等人(2004)例如,为LDA主题模型添加了作者数据,以更好地预测与特定科学家最相关的研究主题。在识别适当的同行评议者或潜在合作者时,这尤其有用。类似地,Lu和Wolfram(2012)将LDA主题建模与用于衡量作者研究相关性的共引用方法进行了比较,发现主题建模方法产生了更完整的这些关系的映射。 Gerrish和Blei(2010)将传统的引文计数指标与主题建模,基于语言的方法来衡量学术影响进行了比较。他们发现,虽然这两种方法在整体学术影响方面产生了一致的结果,但是基于语言的方法通常会确定定性上不同的有影响力的文章。 Wang等(2011年)最近将LDA主题建模与网络分析技术相结合,开发了一个工具,帮助研究人员评估广泛和快速增长的生物医学文献,以确定化学物质,基因和药物发现重要疾病之间的重要联系。
NSF主题模型被创建为帮助NSF员工和科学界更好地了解NSF资金组合的内容和背景的工具。 它还提供了一种评估这些文件的学科内容的新手段。 由于主题模型来源于NSF奖项的语言或知识内容,而不是依赖引文作为对文档的智力贡献的代理,主题模型允许对文档内容本身进行定量评估。 使用NSF主题模型和NSF的制度结构,本文探讨了一种用于测量NSF奖项组合中的IDR的新方法。
方法
该评估使用社会,行为和经济科学理事会(SBE)作为案例研究,以将研究的奖学金数量保持在可管理的数量。SBE是NSF研究主管中最小的,2000年至2000年期间发放了14,225个奖项 2011年相比,NSF在同期发布的约170,000个奖项。
2011年,NSF使用LDA算法开发了其授予和提案数据库的主题模型(参见Newman等人2011,主题建模算法的描述)。该模型由加利福尼亚大学尔湾分校的戴夫·纽曼(Dave Newman)建立,一个名为NSF Portfolio的网络分析工具由一组政府承包商建造,以促进模型的使用。主题模型从2000年至2011年期间,NSF发布的大约17万个机器可读文本的15页项目描述文本中识别了一组1000个潜在主题框。2000年至2012年间NSF数据库中的每个奖项现在被标记为最多四个不同的主题标签从一组923实体主题分组。这些主题按照奖励提案文本中找到每个主题的程度进行排序,最强烈的关联或最具描述性的主题列在首位。在分析时,通过公开的原型NSF Portfolio Explorer网站(http://readidata.nitrd.gov/star)访问了该奖项及其主题标签。重要的是要注意,NSF Portfolio Explorer不允许访问主题模型中包含的所有丰富数据。例如,尽管主题模型经常与每个奖项相关联的四个主题箱,但是开发团队选择仅列出每个奖项前四大最相关的主题,以解决服务器和计算能力问题。
对于这一分析,923个实体主题栏中的每一个都通过科学学科通过NSF的一级结构进行分类。 NSF组织成与最广泛的科学学科相一致的理事会,其中以下用于分析:生物学(BIO),计算机与信息科学与工程(CISE),工程(ENG),地球科学(GEO)数学和物理科学(MPS)以及社会与行为科学(SBE)。由于MPS拥有几个明显不同的学科,所以使用了MPS部门(天文学,化学,材料科学,数学和物理)。使用NSF在2000年至2011年期间颁发的所有奖励,每个主题出现在每个一级(或MPS部门)的奖励中的频率都被计算出来。主题被分配到他们最常出现的学科(首长级或MPS部门),归因于考虑到一级组合的不同大小。单独审查了在多个首脑会议或非研究或跨学科总监或办事处之一高频出现的主题,并根据对主题描述的评估分配了一个学科,或者被标记为“不具有学科意义”。 “分类为非学科专题的主题通常描述研究过程或一般科学企业,如t3:假设,t60:仪器,t738:创业精神和t889:研究生。
表格总结了与NSF主任和MPS部门相关的广泛的学科类别,并强调了与每个学科相关的奖项和主题的分布。一般来说,奖项和议题的整体分布比较相似,除了生物学院(BIO)和地球科学院(GEO)的情况除外。 BIO仅颁发了NSF的10%的奖项,但18%的专题被列为生物学专题。这意味着BIO可能由更多种类的学科或分学科组成,或者生物学家通常使用非常专业的语言来描述他们的具体科学(甚至在学科内)。在这种情况下的分配差异可能是由于这两个因素的结合。另一方面,GEO管理NSF的23%的奖励,而只有6%的话题被归类为地球科学主题。这表明学科范围更窄,对共同语言的依赖性更强,或者跨学科联系更强(在这种情况下,主题经常被分类为非学科特征)。在地球科学的情况下,这可能是由于所有这三个因素的结合,可能被夸大,因为地球观测组织是所有领导层的最大预算之一。
在将主题分配到广泛学科之后,所有被分类为SBE的课题随后也被分类为SBE学科,使用相同的分析方法,但依靠SBE核心课程的内容领域作为学科的代理。单独审查了在多个SBE核心计划或SBE跨学科计划中高频出现的主题,并根据主题描述的内容被分配到SBE学科,或被分类为“SBE非特异性”。 SBE非特定主题通常描述社会科学方法,广泛的社会问题或主题或研究领域,如t506:定性分析,t41:社会建构主义,t228:性别/性别,t644:移民和移民,以及t125:中东地区。这种分类允许对SBE奖励的跨学科性进行更精细的评估。表2总结了SBE各核心学科的管理奖励数量以及每个学科相关课题的数量。
然后根据与分配给每个奖项的主题标签相关的学科数量计算SBE组合中每个奖项的跨学科性。 包含分配到多个SBE学科的主题的奖项被认为具有“内部跨学科性”,因为每个贡献学科都在SBE中找到。 至少包含一个分配给任何非SBE学科(首长级或MPS部门)的专题的奖项被认为具有“外部跨学科性”。
每个奖项中的学科分配是通过根据他们在主题标签列表中的位置来加权学科来计算的。 尽管LDA算法将特定权重分配给与每个奖励相关联的主题箱(基于文本中相关联的字百分比),但模型的更精确的权重已从NSF投资组合资源管理器中被剥离,以便简化基于Web工具的基础数据处理,并使不熟悉主题建模的用户更加直观的工具。 为了部分替代这些模型权重,使用表3中列出的加权系数。 然后,使用简单的直接计数的IDR确认的2000年至2011年的整个SBE投资组合的跨学科性质,并将通过每个奖项的加权学科内容确定的不同学科的总授予金额相加。
虽然这种简单的三元(外部,内部,无)测量IDR的方法在捕获给定资金组合中的IDR的程度或程度方面很有用,但这样一个简单的措施并没有充分地捕捉跨学科交互的程度或质量。一项只有二级学科贡献最小的奖项通常被认为是少于跨学科的奖学金,这个奖学金来自三个或更多学科的同等贡献。同样,组合两个相对类似学科的奖项,如人类学和社会学,通常被认为是一个比经济学和生物学两个相对不同的学科相结合的奖项的跨学科。一些作者将跨学科性视为特殊学科(多样性)的数量,学科贡献(平衡)的分布以及贡献学科(差异)之间的差异程度或距离的差异(Sterling 2007; Rafols和Meyer 2008; Porter和Rafols 2009)
为了将这些IDR的特征纳入此分析,并评估每个奖项的跨学科性,斯特林(2007)多样性指数被使用:
这里dij等于每对奖学金的每对学科贡献i和j之间的相对距离,并考虑IDR的差异维度。 余额由pi和pj代表,这是给定奖励的每个学科贡献的比例。通过将此产品归结于所有成对学科来计算差异。
使用上述内部和外部学科之间的区别将距离近似为一阶。 假设内部学科(位于SBE内部)比外部学科(由其他主管部门管理的内部学科)彼此更近或更相似,外部学科比内部学科之间更远。 为了描述这些相对关系,内部学科对被赋予了距离值0.2,外部学科对被赋予了0.9的距离值。 内部外部学科对也被分配了0.9的距离值。
程序级分析
还进行了程序级分析,以确定这些方法用于比较不同投资组合的IDR的相对程度的有用性。 选择了六个代表性的核心SBE计划:社会学; 政治学; 经济学;地理与空间科学(GSS); 决策风险和管理科学(DRMS);以及感知,行动,认知(PAC)。 除了评估每个项目的IDR奖励百分比和每个计划的平均斯特林多样性指数之外,还使用科学科学工具包(Sci Team 2009)为每个计划构建并分析了共现网络图谱。 共现图谱有助于解释跨学科性各个层面(品种,平衡和差异)的不同类型的跨学科交互的特征。
结论
测量IDR的简单三元方法显示,通过奖励计算,SBE的投资组合中89%由IDR组成,其中55%的投资组合被认为具有外部跨学科性,34%的投资组合包括具有内部跨学科性质的奖项。 当考虑到美元数额时,SBE的93%的投资组合由IDR组成,其中74%的SBE预算支持外部IDR研究,19%支持研究与内部IDR。
通过奖励计数与裁决数量,SBE组合中的内部和外部IDR的百分比之间有些显着的差异,使得更多地了解IDR类型的分配
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[25847],资料为PDF文档或Word文档,PDF文档可免费转换为Word
您可能感兴趣的文章
- 饮用水微生物群:一个全面的时空研究,以监测巴黎供水系统的水质外文翻译资料
- 步进电机控制和摩擦模型对复杂机械系统精确定位的影响外文翻译资料
- 具有温湿度控制的开式阴极PEM燃料电池性能的提升外文翻译资料
- 警报定时系统对驾驶员行为的影响:调查驾驶员信任的差异以及根据警报定时对警报的响应外文翻译资料
- 门禁系统的零知识认证解决方案外文翻译资料
- 车辆废气及室外环境中悬浮微粒中有机磷的含量—-个案研究外文翻译资料
- ZigBee协议对城市风力涡轮机的无线监控: 支持应用软件和传感器模块外文翻译资料
- ZigBee系统在医疗保健中提供位置信息和传感器数据传输的方案外文翻译资料
- 基于PLC的模糊控制器在污水处理系统中的应用外文翻译资料
- 光伏并联最大功率点跟踪系统独立应用程序外文翻译资料
