综合指标的开发和完善涉及将多个单独的指标汇总为一个综合指标。 这一过程借鉴了统计学、经济学和技术评估等多种方法。 值得注意的例子包括联合国于1990年推出的人类发展指数(HDI)[2],该指数综合了健康、教育和收入水平,以及性别不平等指数(GII),该指数衡量了健康、赋权和劳动力市场参与方面的性别差距[36]。 随着人工智能领域的持续快速发展,对衡量和比较不同国家人工智能能力的强大工具的需求变得越来越明显。 OEC等人。 [27]在组合索引创建的研究中取得了重要的基础性成果。 他们的指导强调了连贯的理论结构、细致的数据选择和转换以及稳健性检查的重要性,以确保这些指标的可靠性。 同样,Nardo等人[26]讨论了选择、标准化、加权和汇总指标的潜在陷阱。 他们强调了方法中透明度和一致性的重要性,这对于提高综合指数的可解释性和可比性至关重要。 Greco等人[21]在综合综述中讨论了复合指标方法框架的最新进展。 本综述强调了由于综合指标在各个研究领域越来越受欢迎,其采用和方法改进的演变。 Greco等人[21]特别关注了重要方面,如加权和聚合,这些领域引起了大量批评,并为未来的研究提供了途径。 他们的工作探讨了这些指标构建后的稳健性分析,这是一个探索较少但意义重大的阶段,强调了对能够经得起审查并提供可靠和可解释结果的稳健方法的需求。 除了基础知识外,欧盟委员会的COIN工具用户指南[32]还为构建专门用于政策分析的综合指标提供了实用指导。 本指南为研究人员和政策制定者提供了有用的资源,他们旨在应用这些指标来评估和比较不同地区或国家的政策影响。 基于这些经验教训,全球人工智能活力工具(GVT)应用了文献中的最佳实践,确保了坚实的概念框架、透明的数据处理和彻底的稳健性检查。 更多细节见方法论部分。 创建指数来跟踪不同国家的技术进步也有着悠久的传统。 例如,Desai等人[14]开发的技术成就指数(TAI)是衡量跨国技术进步的基础框架。 TAI根据几个维度对国家进行评估,包括技术创造、传播和人类技能发展。 该指数为旨在评估人工智能能力的更专业的工具奠定了基础。 |