SQL查询以提高PATSTAT中的数据准确性和完整性外文翻译资料

 2022-12-29 12:52:36

世界专利信息57 (2019)1-7

内容列表可在ScienceDirect上找到

世界专利信息

杂志主页:www.elsevier.com/locate/worpatin

SQL查询以提高PATSTAT中的数据准确性和完整性

弗朗西斯科·Pasimenia blowast;

欧洲委员会,联合研究中心(JRC), Petten,荷兰

苏塞克斯大学科学政策研究中心,英国布莱顿

A R T I C E I N F O A B S T R A C T

关键词:PATSTAT

数据的准确性

专利数据

数据清理

减缓气候变化技术

PATSTAT是由欧洲专利局创建和维护的全球专利统计数据库。为了提高其准确性和完整性,人们开发了许多方法和技术。这篇论文对这方面的研究做出了贡献。提出了一种新的分配程序,将专利权人居住国的空条目数减少44%,同时将国家代码分配的准确率提高22%。该过程由一个在PATSTAT中运行的可复制SQL查询组成。该程序的应用表明,基于原始数据的专利分析低估了中国和日本在减缓气候变化技术领域的作用。

1. 介绍

专利数据为科学技术研究提供了重要的实证依据[1-3]。专利数据连同所取得的技术进展的详细说明,提供了关于技术变化过程和有关参与者的额外信息。书目数据包含在每一个专利申请提交时显示日期和专利局,申请人的名称(s) (s)和发明家(s)和他们居住的国家,分类代码(s)指示哪个技术领域,解决当前的专利是基于之前的专利申请,如果任何。

鉴于这些丰富的信息,科学界已经制定了关于如何使用专利数据[4]以及如何构建关于技术变化的代理和指标的指南[5-7]。因此,专利数据被用来研究和评估知识和技术转移[8,9]、技术国际扩散[10]、合作网络[11,12]、企业有形(技术)和无形(专有技术)资产[13,14]、技术变革轨迹[15]和创新绩效[16,17]。

专利数据很容易通过PATSTAT获得,PATSTAT是由欧洲专利局(EPO)创建和维护的全球专利统计数据库。它包含了来自主要工业化国家和发展中国家的所有专利申请的书目数据和法律状况信息。数据库每年更新两次,分别是早春和早秋[18]。根据de Rassenfosse等人的[19],PATSTAT是最突出的专利数据源,并且得到了广泛的应用。结构化查询语言(SQL)允许查询数据库,科学家和其他感兴趣的用户可以访问数据库

通过一个非常用户友好的在线界面。

PATSTAT直接从欧洲专利局和其他来源(如国家和超国家专利机构)收集专利数据。但是,国家当局提供的数据不完整,造成准确性和完整性不足,因此欧洲经委会不承担任何法律责任或责任[18,第16页]。由于这个问题在科学界是众所周知的,为了提高研究成果的质量和避免扭曲信息,已经提出了几种方法和技术[11,20 - 23]。

本文对这方面的研究做出了贡献,提出了一种提高PATSTAT数据准确性和完整性的简单方法。现有的数据清理和数据协调方法被证明在产生更好和更可靠的结果方面非常有效。然而,这些往往是基于先进的技术,使用复杂的算法或人工智能来管理大数据。因此,很难重用或复制这些方法。与此相反,本文所提出的过程由一个在PATSTAT中运行的简单查询组成,因此易于复制。

本文的结构如下。第2节讨论了PATSTAT中标识符的作用,并描述了关于向申请人和发明人分配国家代码的不一致性。随后,提出了国家分配程序:这是一个简单的查询,允许减少44%的空白条目,并增加22%的国家代码分配。通过使用相同的原理,它表明了所提议的分配程序增加了分配给专利权人的另外两个属性的准确性和完整性:区域代码和部门。在第3节中,对提议的分配程序进行了测试

欧洲委员会,联合研究中心(JRC),邮政信箱2号,NL-1755 ZG Petten,荷兰。电子邮件地址:Francesco.PASIMENI@ec.europa.eu。

https://doi.org/10.1016/j.wpi.2019.02.001

2018年6月27日;2018年12月19日以修订后的形式收到;2019年2月10日

0172-2190/copy;2019作者。由爱思唯尔有限公司出版。

f . Pasimeni

通过比较以减缓气候变化技术为例的专利分析的结果,与PATSTAT中的原始数据进行比较。结果表明,较高的数据精度和完备性提供了更好、更现实的研究结果。第四节总结道。

2. 分配过程

PATSTAT数据目录[18]详细描述了数据库的结构、如何构建数据库以及表和属性(或字段)背后的逻辑。表tls201_appln包含了所有专利申请的书目数据,表tls206_person给出了申请人和发明者的信息。这两个表通过另一个表tls207_pers_appln相互链接,tls207_pers_appln允许识别和区分专利申请人和发明人。使用这三个表对于研究涉及任何实施专利活动的参与者(或实体)的地理来源至关重要。发明人所在国表示进行发明活动的地点,申请人所在国表示发明的所有人所在地。

在PATSTAT中,关于居住国的信息在表tls206_person中,特别是在字段person_ctry_code中。person_id是这个表的主键,与我们想象的不同,它并不代表数据库中唯一的实体。相反,它是其他三个字段的所有组合的代理键:person_name、per-son_address和person_ctry_code。这意味着多个person_id可能表示同一个实体。为了提供协调的信息,在EPO的主书目数据库DOCDB中发生的标准化过程定义了一个额外的标识符和名称,该标识符和名称将几个person_id分组在一个惟一的实体下。这些字段是doc_std_name及其相关的doc_std_name_id,都包含在表tls206_person中。因此,在一个doc_-std_name_id下分组的所有person_id表示相同的实体。PATSTAT用户希望仅为这些标识符分配一个国家代码,因此,每个doc_std_name_id只分配一个person_ctry_code。然而,EPO[18, 47, 280页]并不承认这一点。

为了展示这些不一致的例子,表1总结了在PATSTAT Online (2018 spring版本)中运行的查询的结果,该查询搜索并检索所有person_id,以及相关的per-son_ctry_code,其中doc_std_name=1。这个标识符表示芬兰诺基亚公司,并将174个不同的条目组合在一起。130人有关正确的国家代码' FI ' 20与美国,10没有任何代码,剩下的与其他几个国家(表1),尽管缺乏准确性,值得注意的是,一个国家的代码比其他人更频繁地发生。在这个例子中,75%的person_id被正确地分配给了芬兰。因此,可以合理地假设剩余的person_id(分组在doc_std_name_id=1下)也可以分配给同一个国家。

本文提出的分配程序就是基于这一原理。假设person_ctry_code更频繁地关联到一个doc_std_name_id是正确的,并且它可以自动分配给所有在doc_std_name_id下分组的person_id。PATSTAT中有超过5600万个不同的person_id,它们由超过2500万个doc_std_name_id协调。一个简单的查询允许检测分配给每个doc_std_name_id的最频繁的国家,并自动将其分配给连接的person_id,如图1所示。这个查询的结果是表tls206_person中所有person_id的列表,它们分组在相对的doc_std_name_id和doc_std_name下,其中分配了唯一的person_ctry_code。

需要注意的是,“不能100%确定DOCDB标准化名称总是与正确的人名相关联,特别是如果人名信息来自DOCDB以外的源”[18,pp. 144]。

世界专利信息57 (2019)1-7

表1

分配给Nokia公司的person_ctry_code: doc_std_name_id= 1。

person_ctry_code

国家

数person_id

FI US(空白)FR CN GB CA ID在KI NL SG中

芬兰、美国、法国、中国、英国、加拿大、印度尼西亚、印度、基里巴斯、荷兰、新加坡

130 20 10 4 2 2 1 1 1 1 1 1

174

该分配过程由三个嵌入式查询组成。第一个子查询计数每个doc_std_name_id,表tls206_person中的所有记录(即person_id的数量)按per-son_ctry_code分组,并按降序排列这些值。在这个查询中,注意两个元素很重要。第一个问题涉及WHERE条件,该条件将搜索限制为只有person_ctry_code和值,即那些不是空的。通过这种方式,当person_ctry_code= blank比其他代码分配得更频繁时,就可以消除获取它的风险。第二个问题是,当在doc_std_name_id下将两个或多个代码分配给相同数量的person_id时,这些代码按字母顺序排列。只有当在相同的doc_std_name_id下将两个或多个person_ctry_code分配给相同数量的person_id并同时将它们排在第一位时,这种情况才会给分配过程添加偏差。然而,据计算,这种事件组合只发生在doc_std_name_id的1.6%,这意味着几乎总是有一个国家代码比其他代码出现得更频繁。

第二个子查询从第一个查询的结果中选择all doc_std_name_id,并仅将排在第一位的相对person_ctry_code分配给这些子查询。最后一个嵌入式查询再次考虑表tls206_person,该表与第二个子查询右联,以避免遗漏每个son_ctry_code惟一可用的doc_std_name_id。因此,最后这个查询列出了表tls206_person中的所有person_id,以及在同一doc_-std_name_id和doc_std_name下标准化的所有记录之间一致分配的相对国家代码。

与PATSTAT中的原始数据相比,这个简单的查询减少了44%的没有person_ctry_code的person_id(那些是空的)数量(图2)。目前,tls206_person表中34%的person_id没有指定国家代码。通过分配过程,这一份额下降到19%,这意味着在tls206_person表中,地理住所分配给了800多万个person_id。此外,许多国家的申请人或发明人的数量大幅度增加:改进幅度在20%至40%之间,如图2所示。

表tls206_person提供了另外两组协调信息[24]。第一个是由kukLeuven和欧盟统计局协调专利所有人的名字,并为他们分配一个行业分类[25,26]。这个方法生成另一个标识号psn_id,它被添加到PATSTAT中,涉及表tls206_person中person_id总数的98%。因此,这个附加标识符还将同一实体下的几个person_id分组。但是,对于doc_std_name_id,这些附加的协调信息集呈现了相同类型的不一致性,如表2所示。因此,图1中所示的分配过程可以通过使用这个附加项来复制

f . Pasimeni 世界专利信息57 (2019)1-7

图1所示。查询以自动将国家分配给person_id。

图2所示。提高数据的准确性和完整性。

标识符作为主要的标准化引用,因此使用psn_id替换doc_-std_name_id。第二个信息集是由OECD专利统计工作组开发的[27,28]。与前一个类似,在附加标识符han_id下提供了合并和协调的名称,该标识符将几个person_id分组在一起。此方法旨在消除表tls206_person中的不一致性。事实上,Nokia Corporation被正确地分配给芬兰,以标识符han_id=2196902分组的所有person_id。因此,这是一种标准化程序,可产生更准确的一组信息。然而,这

方法仅适用于居住在40个国家的专利申请人[18,p. 177]。这意味着所有专利发明人和许多其他国家都不受此过程的影响:实际上,协调表tls206_person中总person_id的不到10%。原始信息被复制到表中的其余条目,为了避免不一致的信息,将生成一个惟一的han_id作为名称和国家的所有组合的代理键。因此,图1中所示的分配过程应用于这个标识符并没有产生任何改进,因为通过构造,没有不一致之处。PATSTAT中的表tls206_person提供了与每个person_id相关的附加信息,比如psn_sector和nuts。但是,这些领域的分配也不一致:有多个部门(例如公司、大学、个人等)分配给同一实体,也有多个区域代码分配给同一欧洲申请人或发明者。表3显示了诺基亚公司的案例缺乏数据准确性。如上所述,这个特定的例子说明字段psn_sector被正确地分配给标识符psn_id和han_id。相反,所有标识符都显示了与区域代码有关的错误分配。考虑到这些额外的不一致性出现在表tls206_person中,为了增加这些字段中的数据准确性和完整性,可以调整和实现图1中的分配过程。表4总结了PATSTAT中关于与专利权

剩余内容已隐藏,支付完成后下载完整资料


World Patent Information 57 (2019) 1–7

Contents lists available at ScienceDirect

World Patent Information

journal homepage: www.elsevier.com/locate/worpatin

SQL query to increase data accuracy and completeness in PATSTAT

Francesco Pasimenia,b,lowast;

a European Commission, Joint Research Centre (JRC), Petten, Netherlands

bUniversity of Sussex, Science Policy Research Unit (SPRU), Brighton, United Kingdom

A R T I C L E I N F O A B S T R A C T

Keywords: PATSTAT

Data accuracy

Data completeness Patent data

Data cleaning

Climate change mitigation technology

PATSTAT is the worldwide patent statistical database created and maintained by the European Patent Office. Many methods and techniques have been developed to increase its accuracy and completeness. This paper contributes to this body of research. It proposes an allocation procedure which reduces by 44% the number of empty entries concerning the residence country of patentees, and, at the same time, it increases by 22% the accuracy of country code allocation. The procedure consists of a replicable SQL query to be run in PATSTAT. An application of this procedure illustrates that patent analyses based on raw data underestimate the role of China and Japan in the area of climate change mitigation technologies.

1. Introduction

Patent data provide important empirical evidences to science and technology studies [1–3]. Together with a detailed description of the technical progress achieved, patent data provide additional information on the process of technical change and on the actors involved. The bibliographic data contained in every patent application indicate the date when it is filed and in which patent office, the name(s) of applicant (s) and inventor(s) and their residence country, the classification code (s) indicating which technology field is tackled and prior patent applications on which the current patent is based, if any.

Given this rich set of information, the scientific community has developed guidelines on how to use patent data [4] and on how to build proxies and indicators regarding technological change [5–7]. Accordingly, patent data are used to study and evaluate knowledge and technology transfer [8,9], technology international diffusion [10], network of collaborations [11,12], firmsrsquo; tangible (technology) and intangible (know-how) assets [13,14], trajectories of technological change [15] and innovation performances [16,17].

Patent data are easily available through PATSTAT, which is the worldwide patent statistical database created and maintained by the European Patent Office (EPO). It contains bibliographical data and legal status information of all patent applications from leading industrialised and developing countries. The database is updated twice a year, early spring and early autumn [18]. According to de Rassenfosse et al. [19], PATSTAT is the most prominent patent data source, and it is widely used. The structured query language (SQL) permits to interrogate the database, which is accessible to scientists and to other interested users

via a very user friendly online interface.

PATSTAT collects patent data directly from the European Patent Office and from other sources, such as national and supranational patent authorities. However the incomplete provision of data from national authorities generates lack of accuracy and completeness, for which the EPO does not assume any legal liability or responsibility [18, p. 16]. Since this issue is well-known in the scientific community, several methods and techniques have been proposed in order to increase quality of research outcomes and to avoid distort information [11,20–23].

This paper contributes to this body of research and presents a simple way to increase data accuracy and completeness in PATSTAT. Available approaches to data cleaning and data harmonisation are proven to be very effective in producing better and more reliable outcomes. However, these are often based on advanced techniques which apply complex algorithms or artificial intelligence to manage big data. Consequently it is difficult to reuse or replicate these approaches. Contrarily, the procedure proposed in this paper consists of a simple query to be run in PATSTAT and, therefore, it is easily replicable.

The paper is structured as follows. Section 2 discusses the role of identifiers in PATSTAT and describes inconsistencies regarding the allocation of country code to applicants and inventors. Subsequently, the country allocation procedure is presented: it is a simple query which permits to reduce by 44% the number of blank entries and to increase by 22% country code allocation. By using the same rationale, it is then shown that the proposed allocation procedure increases the accuracy and completeness of two other attributes assigned to patentees: regional code and sector. In section 3 the proposed allocation procedure is tested

lowast; European Commission, Joint Research Centre (JRC), P.O. Box 2, NL-1755 ZG Petten, the Netherlands. E-mail address: Francesco.PASIMENI@ec.europa.eu.

https://doi.org/10.1016/j.wpi.2019.02.001

Received 27 June 2018; Received in revised form 19 December 2018; Accepted 10 February 2019

0172-2190/ copy; 2019 The Author. Published by Elsevier Ltd. This is an open access article under the CC BY license (http://creativecommons.org/licenses/BY/4.0/).

F. Pasimeni

against raw data in PATSTAT by comparing the outcomes of a patent analysis conducted in the case of climate change mitigation technologies. It is shown that higher data accuracy and completeness provides better and more realistic research outcomes. Section 4 concludes.

2. The allocation procedure

The PATSTAT Data Catalog [18] describes in detail the structure of the database, how it is built and the logic behind tables and attributes (or fields)

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[276222],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版