Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Update README.md #15

Merged
merged 1 commit into from
Aug 24, 2023
Merged
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
25 changes: 12 additions & 13 deletions README.md
Original file line number Diff line number Diff line change
@@ -1,14 +1,12 @@
# 组件简介
# 合成数据生成器 -- 快速生成高质量合成数据!

高质高效的单表和多表数据合成组件
合成数据生成器(Synthetic Data Generator,SDG)是一个专注于快速生成高质量结构化表格数据的组件。支持10余种单表、多表数据合成算法,实现最高120倍性能提升,支持差分隐私等方法,加强合成数据安全性

## 简介

Synthetic Data Generator(SDG)是一个专注于结构化表格数据快速生成合成数据的组件。它支持先进的CTGAN、TVAE、CTAB-GAN、OCTGAN、CorTGAN等10种模型,并跟踪业界最新工作,将新发表的优质算法/模型纳入支持清单。SDG不仅支持单表和多表数据的快速生成,还从生产环境的角度出发,提供多元化的部署和多机多卡训练等特性,帮助组织和企业用户快速生成高质量的合成数据,以支持各种应用场景和需求。
合成数据是由机器根据真实数据与算法生成的,合成数据不含敏感信息,但能保留真实数据中的行为特征。合成数据与真实数据不存在任何对应关系,不受 GDPR 、ADPPA等隐私法规的约束,在实际应用中不需要担心隐私泄漏风险。高质量的合成数据可用于数据安全开放、模型训练调试、系统开发测试等众多领域。

| 重要链接 | |
| ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ----------------------------------------------------- |
| 📖 [文档](https://sgd.github.io/) | 项目API文档 |
| 📖 [文档](https://github.com/hitsz-ids/synthetic-data-generator/tree/main/docs) | 项目API文档 |
| :octocat: [项目仓库](https://github.com/hitsz-ids/synthetic-data-generator) | 项目Github仓库 |
| 📜 [License](https://github.com/hitsz-ids/synthetic-data-generator/blob/main/LICENSE) | Apache-2.0 license |
| 举个例子 🌰 | 在[AI靶场](https://datai.pcl.ac.cn/)上运行SDG示例(TBD) |
Expand Down Expand Up @@ -96,15 +94,16 @@ sampled_data = model.generate(1000)

## 主要特性

+ 支持SOTA工作并进行性能优化
+ 已支持单表和多表数据合成的10种先进算法,SDG会持续跟踪学术界和工业界的最新进展,及时引入支持优秀算法和模型;
+ 针对实际生产需求进行优化,提升模型性能,降低内存开销,支持单机多卡、多机多卡等实用特性。
+ 支持生产环境高效使用
+ 提供自动化部署、容器化技术、自动化监控和报警等生产环境所需技术;
+ 高性能
+ 支持10余种单表、多表数据合成算法,实现最高120倍性能提升;
+ SDG会持续跟踪学术界和工业界的最新进展,及时引入支持优秀算法和模型。
+ 生产环境快速部署
+ 针对实际生产需求进行优化,提升模型性能,降低内存开销,支持单机多卡、多机多卡等实用特性;
+ 提供自动化部署、容器化技术、自动化监控和报警等生产环境所需技术,支持容器化快速一键部署;
+ 针对负载均衡和容错性进行专门优化,提升组件可用性。
+ 支持中文敏感数据自动检测与匿名化
+ 隐私增强:
+ 提供中文敏感数据自动识别能力,包括姓名、身份证号、人名等17种常见敏感字段;
+ 实现对敏感字段的匿名化,保证合成数据的安全性
+ 支持差分隐私、匿名化等方法,加强合成数据安全性

## 算法列表

Expand Down