Skip to content

Latest commit

 

History

History
30 lines (17 loc) · 1.98 KB

File metadata and controls

30 lines (17 loc) · 1.98 KB

Chinese_Malicious_Web_Pages_Dataset_And_Detection

中文恶意网页检测数据集与检测方法 网络安全 数据挖掘 自然语言处理 深度学习 文本分类 模式识别

中文恶意网页检测数据集与检测方法

中文恶意网页检测数据集列表1

中文恶意网页检测数据集列表2

若在科研论文、项目工程中使用了该数据集,欢迎引用我们的工作:

Yanting Jiang, Di Wu. A novel Chinese malicious webpages detection method based on the pre-trained language model[C]. The 19th International Conference of Web Information Systems and Applications(WISA 2022), 2022, 155--167, Springer, http://dx.doi.org/10.1007/978-3-031-20309-1_14.

论文下载链接:https://github.com/JiangYanting/Chinese_Malicious_Web_Pages_Dataset_And_Detection/blob/main/An%20integrated%20Chinese%20malicious%20webpages%20detection%20method.pdf

1. 简介

针对中文恶意网页检测的数据稀缺,难以获取的问题。构建并发布了中文恶意网页检测数据集。
每一个样本包含网页URL、HTML网页文件、JavaScript代码文件。

2. 数据规模

包含521个中文恶意网页。恶意网页的种类涉及博彩类、钓鱼类(冒充正常页面)、色情类、违法交易类等。

3. 数据下载地址

中文恶意网页列表(含URL)的地址:见项目的“中文恶意网页列表+URL.xlsx”文件。

中文恶意网页HTML与JavaScript文件下载地址:请联系作者微信jyt629000,或qq:3225357264

(经人工检测,恶意网页绝不含木马病毒,可以放心下载)