Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

创建了alluxio和paddle的集成文档 #763

Draft
wants to merge 4 commits into
base: master
Choose a base branch
from

Conversation

thu-david
Copy link

No description provided.

@CLAassistant
Copy link

CLAassistant commented Nov 29, 2023

CLA assistant check
All committers have signed the CLA.

Copy link

paddle-bot bot commented Dec 1, 2023

你的PR提交成功,感谢你对开源项目的贡献!
请检查PR提交格式和内容是否完备,具体请参考示例模版
Your PR has been submitted. Thanks for your contribution!
Please check its format and content. For this, you can refer to Template and Demo.

heavengate
heavengate previously approved these changes Dec 20, 2023
sudo ./aws/install
```

## 配置AWS账号信息
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Suggested change
## 配置AWS账号信息
## 配置AWS账号信息


:指定缓存文件/目录元数据的超时时间(秒)。默认是1.0秒。

:指定缓存目录列表结果的超时时间(秒)。默认是1.0秒。
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

是不是缺了参数名?

@jzhang533
Copy link
Collaborator

RFC(request for change)文件是为了能够针对需要对Paddle做哪些改动而进行讨论的。
从这份RFC文件里看不出来需要对Paddle做哪些改动,即便是对Paddle的使用,也只是 import paddle 然后打印paddle 版本号就结束了。

  • 如果有明确的,对paddle进行改动的方案需要在社区讨论,还请更新RFC文件。
  • 如果只是介绍 alluxio 项目如何使用,请发布在其他更合适的地方。

@jzhang533 jzhang533 marked this pull request as draft December 20, 2023 06:13

# paddle配置

paddle版本2.3.0
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

paddle现在都2.6了,是2.3之后都可以适配的意思吗?

Copy link
Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

我验证一下,重新修改!

@thu-david
Copy link
Author

RFC(request for change)文件是为了能够针对需要对Paddle做哪些改动而进行讨论的。 从这份RFC文件里看不出来需要对Paddle做哪些改动,即便是对Paddle的使用,也只是 import paddle 然后打印paddle 版本号就结束了。

  • 如果有明确的,对paddle进行改动的方案需要在社区讨论,还请更新RFC文件。
  • 如果只是介绍 alluxio 项目如何使用,请发布在其他更合适的地方。

您好,这是一个验证的文档,验证使用alluxio fuse sdk可以用来加载模型数据,并供paddle paddle使用。我们希望这个文档成为一个tutorial,可以合并进docs里,希望提出更进一步的修改意见。这个文档不是RFC,暂无paddle paddle工程师需要合作支持的地方。感谢review!

@jzhang533
Copy link
Collaborator

RFC(request for change)文件是为了能够针对需要对Paddle做哪些改动而进行讨论的。 从这份RFC文件里看不出来需要对Paddle做哪些改动,即便是对Paddle的使用,也只是 import paddle 然后打印paddle 版本号就结束了。

  • 如果有明确的,对paddle进行改动的方案需要在社区讨论,还请更新RFC文件。
  • 如果只是介绍 alluxio 项目如何使用,请发布在其他更合适的地方。

您好,这是一个验证的文档,验证使用alluxio fuse sdk可以用来加载模型数据,并供paddle paddle使用。我们希望这个文档成为一个tutorial,可以合并进docs里,希望提出更进一步的修改意见。这个文档不是RFC,暂无paddle paddle工程师需要合作支持的地方。感谢review!

谢谢。如果改写成tutorial的话,还需要注意这些我想到的地方:

  • 对最终用户来说,收益是什么?从目前的文档看,没有说清楚,使用alluxio前后,最终用户的收益在哪里。比如,是否可以做一下对比,使用前后的端到端的性能的提升是多少?
  • 现在所构造的示例实在是太简单了,housing data那个数据集和线性回归的示例,只能当做一个 toy 来示意流程是什么,可能没有实际意义。

@thu-david
Copy link
Author

RFC(request for change)文件是为了能够针对需要对Paddle做哪些改动而进行讨论的。 从这份RFC文件里看不出来需要对Paddle做哪些改动,即便是对Paddle的使用,也只是 import paddle 然后打印paddle 版本号就结束了。

  • 如果有明确的,对paddle进行改动的方案需要在社区讨论,还请更新RFC文件。
  • 如果只是介绍 alluxio 项目如何使用,请发布在其他更合适的地方。

您好,这是一个验证的文档,验证使用alluxio fuse sdk可以用来加载模型数据,并供paddle paddle使用。我们希望这个文档成为一个tutorial,可以合并进docs里,希望提出更进一步的修改意见。这个文档不是RFC,暂无paddle paddle工程师需要合作支持的地方。感谢review!

谢谢。如果改写成tutorial的话,还需要注意这些我想到的地方:

  • 对最终用户来说,收益是什么?从目前的文档看,没有说清楚,使用alluxio前后,最终用户的收益在哪里。比如,是否可以做一下对比,使用前后的端到端的性能的提升是多少?
  • 现在所构造的示例实在是太简单了,housing data那个数据集和线性回归的示例,只能当做一个 toy 来示意流程是什么,可能没有实际意义。

收到了,我会继续修改,把这个文档完善清楚。

@thu-david
Copy link
Author

thu-david commented Dec 26, 2023

RFC(request for change)文件是为了能够针对需要对Paddle做哪些改动而进行讨论的。 从这份RFC文件里看不出来需要对Paddle做哪些改动,即便是对Paddle的使用,也只是 import paddle 然后打印paddle 版本号就结束了。

  • 如果有明确的,对paddle进行改动的方案需要在社区讨论,还请更新RFC文件。
  • 如果只是介绍 alluxio 项目如何使用,请发布在其他更合适的地方。

您好,这是一个验证的文档,验证使用alluxio fuse sdk可以用来加载模型数据,并供paddle paddle使用。我们希望这个文档成为一个tutorial,可以合并进docs里,希望提出更进一步的修改意见。这个文档不是RFC,暂无paddle paddle工程师需要合作支持的地方。感谢review!

谢谢。如果改写成tutorial的话,还需要注意这些我想到的地方:

  • 对最终用户来说,收益是什么?从目前的文档看,没有说清楚,使用alluxio前后,最终用户的收益在哪里。比如,是否可以做一下对比,使用前后的端到端的性能的提升是多少?
  • 现在所构造的示例实在是太简单了,housing data那个数据集和线性回归的示例,只能当做一个 toy 来示意流程是什么,可能没有实际意义。

您好,我们讨论了一下文档。alluxio fuse sdk对用户的收益是,用户能够直接以fuse形式挂载如s3之类的对象存储,并进行机器学习训练,同时在本地节点自动缓存对象存储中的文件,用户只需要在代码中修改数据集对应的路径即可。
关于性能对比部分,我们想问一下paddle paddle是否有能够直接从对象存储中加载数据的data loader,如果有,我们可以做一下性能上的对比。如果没有的话,想请教一下我们做什么对比测试比较合适。

@jzhang533
Copy link
Collaborator

您好,我们讨论了一下文档。alluxio fuse sdk对用户的收益是,用户能够直接以fuse形式挂载如s3之类的对象存储,并进行机器学习训练,同时在本地节点自动缓存对象存储中的文件,用户只需要在代码中修改数据集对应的路径即可。 关于性能对比部分,我们想问一下paddle paddle是否有能够直接从对象存储中加载数据的data loader,如果有,我们可以做一下性能上的对比。如果没有的话,想请教一下我们做什么对比测试比较合适。

据我的了解,现在还没有从对象存储中加载数据的案例。

@thu-david
Copy link
Author

我们重新设计了这个实验和编写了文档,针对alluxio的ai训练加速有了更明确的指标和内容,请重新帮忙审阅一下

@jzhang533
Copy link
Collaborator

  • again:这是一篇 tutorial, 不是RFC,我们需要讨论发布在哪儿更合适。
  • 需要一位 alluxio 社区的人先做一轮 review。

@thu-david
Copy link
Author

  • again:这是一篇 tutorial, 不是RFC,我们需要讨论发布在哪儿更合适。
  • 需要一位 alluxio 社区的人先做一轮 review。

您好,文档已经被alluxio内部review过,请问有哪些发布渠道比较合适?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

Successfully merging this pull request may close these issues.

None yet

5 participants