S2ORC(The Semantic Scholar Open Research Corpus)是一个包含8110万篇跨多学科的英语学
术论文大型语料库,该语料库由两个部分组成:论文元数据和论文结构化全文。其中论文元数据包括论文ID(identity)、作者、摘要等数据
TechKG是一个面向中文、面向学术、多领域的大型知识图谱知识库,知识库由“东北大学-知识图谱研究组”开发完成。TechKG共包含大约5千万个实体(包含标题、作者、作者单位、关键词、摘要)、以及2.6亿个三元组。TechKG的数据共分为38个研究领域,每个研究领域对应一个学科。
Open Citation Data Model(OCDM) 类似于Web of Science和Elsevier's Scopus,以文献之间的引用关系数据为支撑,提供引文查询等相关服务。主要包含的信息如:
已发表的文献资源,这些资源引用或被其他已发表的文献资源引用,或者包含引用/引用实体(例如,包含文章的期刊或包含章节的书籍)
文献资源的收录,定义了提供文献资源的出处,通常出现在引用文献资源实体的参考文献列表中,指向另一个文献资源。通常在引用文献资源实体的正文中,一次或多次引用
相关代理,指与文献资源具有特定关联的个人或组织。例如,论文或书籍的作者,或期刊的出版商;角色,指代理对于特定文献资源中扮演的角色。例如,一篇文献的作者或一本书的编辑等等
引用,两篇文献资源之间的引用关系
与文献资源实体关联的外部标识符,例如,DOI、ORCID、PubMedID、OCI等
基于DBLP(database systems and logic programming)的数据集,从DBLP中抽取了计算机科学领域和邻近领域的相关数据。该数据集已经更新了14个版本,其中最新版本V14(2023年1月开放)包含525985篇文献,以及36630661个引文关系。该数据集包含作者、摘要、标题、期刊、论文发表年份以及引文关系。
基于CiteULike的数据集,CiteULike数据集有两个版本,即CiteUlike-a和CiteUlick-t。CiteUlike-a是2010年开放的数据集,包含2004—2006年的5551个用户、16980篇论文和204987对用户-论文偏好关系;CiteUlike-t是2013年开放的数据集,包含5219个用户、25975篇论文和134860对用户-论文偏好关系。该数据集主要包含每篇论文的题目和摘要信息。
Aminer数据集是从DBLP、ACM(Association for Computing Machinery)等抽取的相关数据。第一个版本于2010年5月开放,包含629814篇论文和632752次引用;第二个版本于2010年9月开放,包含1397240篇论文和3021489次引用。每篇论文包含摘要、作者、年份、发表期刊(或会议)和标题信息。
基于MAG(Microsoft academic graph)的数据集
该数据集包含许多研究领域的数据;通过异构图的形式展示科学出版物及出版物之间的引文关系,以及作者-论文、论文-主题之间的关系等;该数据集每两周更新一次,一直更新到2021年
Pubmed数据集包含来自MEDLINE、生命科学期刊和在线书籍的2600多万次生物医学文献引用。每篇论文包含作者、摘要、标题等元数据信息。为便于科研人员的科学研究,每年会建立一个数据集基线库,科研人员可
以通过批处理或者WebAPI获得数据集。