课外天地 李树青学习天地信息检索原理课件 → 常见的学术文献信息数据集


  共有702人关注过本帖树形打印复制链接

主题:常见的学术文献信息数据集

帅哥哟,离线,有人找我吗?
  1楼 博客 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信 管理员
等级:管理员 帖子:1945 积分:26736 威望:0 精华:34 注册:2003/12/30 16:34:32
常见的学术文献信息数据集  发帖心情 Post By:2024/8/27 10:34:30 [只看该作者]

S2ORC(The Semantic Scholar Open Research Corpus)是一个包含8110万篇跨多学科的英语学
术论文大型语料库,该语料库由两个部分组成:论文元数据和论文结构化全文。其中论文元数据包括论文ID(identity)、作者、摘要等数据

TechKG是一个面向中文、面向学术、多领域的大型知识图谱知识库,知识库由“东北大学-知识图谱研究组”开发完成。TechKG共包含大约5千万个实体(包含标题、作者、作者单位、关键词、摘要)、以及2.6亿个三元组。TechKG的数据共分为38个研究领域,每个研究领域对应一个学科。

Open Citation Data Model(OCDM) 类似于Web of Science和Elsevier's Scopus,以文献之间的引用关系数据为支撑,提供引文查询等相关服务。主要包含的信息如:
已发表的文献资源,这些资源引用或被其他已发表的文献资源引用,或者包含引用/引用实体(例如,包含文章的期刊或包含章节的书籍)
文献资源的收录,定义了提供文献资源的出处,通常出现在引用文献资源实体的参考文献列表中,指向另一个文献资源。通常在引用文献资源实体的正文中,一次或多次引用
相关代理,指与文献资源具有特定关联的个人或组织。例如,论文或书籍的作者,或期刊的出版商;角色,指代理对于特定文献资源中扮演的角色。例如,一篇文献的作者或一本书的编辑等等
引用,两篇文献资源之间的引用关系
与文献资源实体关联的外部标识符,例如,DOI、ORCID、PubMedID、OCI等

基于DBLP(database systems and logic programming)的数据集,从DBLP中抽取了计算机科学领域和邻近领域的相关数据。该数据集已经更新了14个版本,其中最新版本V14(2023年1月开放)包含525985篇文献,以及36630661个引文关系。该数据集包含作者、摘要、标题、期刊、论文发表年份以及引文关系。

基于CiteULike的数据集,CiteULike数据集有两个版本,即CiteUlike-a和CiteUlick-t。CiteUlike-a是2010年开放的数据集,包含2004—2006年的5551个用户、16980篇论文和204987对用户-论文偏好关系;CiteUlike-t是2013年开放的数据集,包含5219个用户、25975篇论文和134860对用户-论文偏好关系。该数据集主要包含每篇论文的题目和摘要信息。
Aminer数据集是从DBLP、ACM(Association for Computing Machinery)等抽取的相关数据。第一个版本于2010年5月开放,包含629814篇论文和632752次引用;第二个版本于2010年9月开放,包含1397240篇论文和3021489次引用。每篇论文包含摘要、作者、年份、发表期刊(或会议)和标题信息。

基于MAG(Microsoft academic graph)的数据集
该数据集包含许多研究领域的数据;通过异构图的形式展示科学出版物及出版物之间的引文关系,以及作者-论文、论文-主题之间的关系等;该数据集每两周更新一次,一直更新到2021年

Pubmed数据集包含来自MEDLINE、生命科学期刊和在线书籍的2600多万次生物医学文献引用。每篇论文包含作者、摘要、标题等元数据信息。为便于科研人员的科学研究,每年会建立一个数据集基线库,科研人员可
以通过批处理或者WebAPI获得数据集。





 回到顶部