Skip to content

Commit

Permalink
Merge pull request #15 from hitsz-ids/document-update_readme
Browse files Browse the repository at this point in the history
Update README.md
  • Loading branch information
MooooCat committed Aug 24, 2023
2 parents 701abcc + 91a7122 commit da5a414
Showing 1 changed file with 12 additions and 13 deletions.
25 changes: 12 additions & 13 deletions README.md
Original file line number Diff line number Diff line change
@@ -1,14 +1,12 @@
# 组件简介
# 合成数据生成器 -- 快速生成高质量合成数据!

高质高效的单表和多表数据合成组件
合成数据生成器(Synthetic Data Generator,SDG)是一个专注于快速生成高质量结构化表格数据的组件。支持10余种单表、多表数据合成算法,实现最高120倍性能提升,支持差分隐私等方法,加强合成数据安全性

## 简介

Synthetic Data Generator(SDG)是一个专注于结构化表格数据快速生成合成数据的组件。它支持先进的CTGAN、TVAE、CTAB-GAN、OCTGAN、CorTGAN等10种模型,并跟踪业界最新工作,将新发表的优质算法/模型纳入支持清单。SDG不仅支持单表和多表数据的快速生成,还从生产环境的角度出发,提供多元化的部署和多机多卡训练等特性,帮助组织和企业用户快速生成高质量的合成数据,以支持各种应用场景和需求。
合成数据是由机器根据真实数据与算法生成的,合成数据不含敏感信息,但能保留真实数据中的行为特征。合成数据与真实数据不存在任何对应关系,不受 GDPR 、ADPPA等隐私法规的约束,在实际应用中不需要担心隐私泄漏风险。高质量的合成数据可用于数据安全开放、模型训练调试、系统开发测试等众多领域。

| 重要链接 | |
| ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ----------------------------------------------------- |
| 📖 [文档](https://sgd.github.io/) | 项目API文档 |
| 📖 [文档](https://github.com/hitsz-ids/synthetic-data-generator/tree/main/docs) | 项目API文档 |
| :octocat: [项目仓库](https://github.com/hitsz-ids/synthetic-data-generator) | 项目Github仓库 |
| 📜 [License](https://github.com/hitsz-ids/synthetic-data-generator/blob/main/LICENSE) | Apache-2.0 license |
| 举个例子 🌰 |[AI靶场](https://datai.pcl.ac.cn/)上运行SDG示例(TBD) |
Expand Down Expand Up @@ -96,15 +94,16 @@ sampled_data = model.generate(1000)

## 主要特性

+ 支持SOTA工作并进行性能优化
+ 已支持单表和多表数据合成的10种先进算法,SDG会持续跟踪学术界和工业界的最新进展,及时引入支持优秀算法和模型;
+ 针对实际生产需求进行优化,提升模型性能,降低内存开销,支持单机多卡、多机多卡等实用特性。
+ 支持生产环境高效使用
+ 提供自动化部署、容器化技术、自动化监控和报警等生产环境所需技术;
+ 高性能
+ 支持10余种单表、多表数据合成算法,实现最高120倍性能提升;
+ SDG会持续跟踪学术界和工业界的最新进展,及时引入支持优秀算法和模型。
+ 生产环境快速部署
+ 针对实际生产需求进行优化,提升模型性能,降低内存开销,支持单机多卡、多机多卡等实用特性;
+ 提供自动化部署、容器化技术、自动化监控和报警等生产环境所需技术,支持容器化快速一键部署;
+ 针对负载均衡和容错性进行专门优化,提升组件可用性。
+ 支持中文敏感数据自动检测与匿名化
+ 隐私增强:
+ 提供中文敏感数据自动识别能力,包括姓名、身份证号、人名等17种常见敏感字段;
+ 实现对敏感字段的匿名化,保证合成数据的安全性
+ 支持差分隐私、匿名化等方法,加强合成数据安全性

## 算法列表

Expand Down

0 comments on commit da5a414

Please sign in to comment.