Skip to content

中国知网论文数据集,24000+篇论文信息。自然语言处理、信息管理、文本分类、文本摘要、关键词抽取、研究热点分析、数据挖掘、数据分析

Notifications You must be signed in to change notification settings

JiangYanting/CNKI_Chinese_paper_dataset

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 
 
 

Repository files navigation

CNKI_Chinese_paper_dataset

中国知网论文数据集,24000+篇论文信息。自然语言处理、信息管理、文本分类、文本摘要、关键词抽取、研究热点分析、数据挖掘、数据分析

中国知网论文数据集

若在科研论文、项目工程中使用了该数据集,欢迎引用:

蒋彦廷,胡韧奋. 基于BERT模型的图书表示学习与多标签分类研究[J]. 新世纪图书馆(图书馆学情报学CSSCI核心刊物),2020年第9期,第38-44页.

Jiang Yanting, Hu Renfen. Representation Learning and Multi-label Classifcation of Books Based on BERT[J], New Century Library, 2020(9), 38-44.

[1]蒋彦廷,胡韧奋.自然语言处理在其他学科领域的影响考察——基于CNKI的中文文献挖掘[J].情报杂志,2021,40(12):169-176.

Jiang Yanting, Hu Renfen. Influence of NLP on other fields based on data mining of CNKI Chinese papers[J]. Journal of Intelligence, 2021,40(12):169-176.

一个广泛搜集爬取的中文图书分类数据集

1.简介

这是一个广泛搜集爬取的中国知网中文论文文献数据集。

2.数据集字段

数据集包含的字段有:期刊名、作者、标题、关键词、摘要、中国图书分类号、学科领域、出版年月等8个字段。

3.数据规模

数据集包含2.4万余册论文信息。

4.用途

可用于数据挖掘、数据分析、自然语言处理、文献计量学、文本分类、图书情报研究与应用等领域。

注1:论文分类的标准

参考《中国图书馆分类法(中图法)》。http://www.ztflh.com/ 包含21个一级大类,200多个二级类,更多的三级类别。

中图法的一级图书类别:A马克思主义、列宁主义、毛泽东思想、邓小平理论;B哲学、宗教;C社会科学总论;D政治、法律;E军事;F经济;G文化、科学、教育、体育;H语言、文字;I文学;J艺术;K历史、地理;N自然科学总论;O数理科学和化学;P天文学、地球科学;Q生物科学;R医药、卫生;S农业科学;T工业技术;U交通运输;V航空、航天;X环境科学、安全科学

数据概览

中国知网论文数据集2

中国知网论文数据集3

下载地址

请邮件联系540980735@qq.com,或加qq号:540980735,或加微信号jyt629000获取。

About

中国知网论文数据集,24000+篇论文信息。自然语言处理、信息管理、文本分类、文本摘要、关键词抽取、研究热点分析、数据挖掘、数据分析

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published