Skip to content

Latest commit

 

History

History
219 lines (166 loc) · 9.5 KB

Hiring.md

File metadata and controls

219 lines (166 loc) · 9.5 KB

Hiring 招人: 让世界变得更热闹的Chat凉宫春日

ChatHaruhi的第一阶段已经结束,后续持续招人中

DataWhale汇报可以见链接: https://pan.baidu.com/s/1yk0voqSkFo0u5Gz-Uz72gQ

提取码下面一个字符串的四个首字母

hello world robin 66666 


Python后端

目前纯Python后端暂时不扩展,可以先找我报名

待后续开发计划确定后再加入到项目

前端

目前新的前端选型不确定,可以先找我报名

如果你非常熟悉Gradio可以直接加入项目,Gradio是项目的默认前端之一。

如果你过往做过比较好用的标注工具也欢迎联系我们,后期台本工具也需要一个合适的前端。

语言模型训练

我们已经筹集了超过6000段,平均每段10句的语料

如果你本身会训练GLM的lora,并且也有训练资源。

或者你会在飞桨上训练GLM,欢迎来联系我们参与这个训练。

需要自带卡(A100,A800,A6000,H100)

语言模型训练_飞桨

  • 熟练使用百度AI Studio和飞桨训练框架,最好有过相关的项目经历

  • 在飞桨框架下完成过GLM的训练,能够将语料对接到模型进行训练,并在特定领域获得明显区别于GLM原有效果的模型。截图给我们验证一下你训练的效果。

  • (opt)有过将Hugging Face上的标准模型(如bert)迁移到飞桨的经验,而不是单纯使用飞桨本身的模型


更多角色设计

当前任务: 设计更多角色的台词和prompt。

人员要求: 需要收集你想要的角色的台词、对应的prompt,这个职位需要带资入组+干活,需要准备两个API token或者V我50买账号。不然我们优先先做Haruhi。


视觉算法工程师

当前任务:给定视频和字幕文件,给定每个角色M张截图,确定srt文件中每条对话属于哪个角色。

人员要求:会跑视觉的代码,会处理视频,自己带机器(这个不需要很好的机器,能跑ViT或者SwinTransformer模型就可以)

更新后的人台词抽取需求

输入:

  • 视频、和视频同步的字幕
  • 一些指定人物的图片,用来确定这个人物(三分类,单独出现,面对面合照中景,和不出现主题人物)
  • 一些指定人物的音频,用来确定这个人物
  • (opt) 升级为多人物音频识别,可以提取完整的台本

输出:

  • 一个jsonl,包含所有视频中这个人的连续对话文本
  • 大量的截图,和一个{截图,对话}的jsonl, 多张截图可以对应同一段对话
    • 如果一段对话的多句中有这个人物出现,则截取这个人物
    • 如果完全没有这个人物出现,则不截取图片,只在第一个连续对话文本中有
    • 如果一段对话中没有主题人物单独出现,但是有合照,也可以截取(备用,这种情况应该很罕见)

联系方式

直接通过 https://www.zhihu.com/people/cheng-li-47 知乎主页联系我

加群不等于队员

一个队员只有实质贡献的时候,才会成为队员,所有实质贡献的同学我会写在项目中

参考这个项目的格式 https://github.com/LC1332/Luotuo-Text-Embedding

不存在两个人一起完成一件事情,一定是可以区分A做了什么 B做了什么。

当前模型结果

Cherrypick了一些有趣的结果,如果你也想测请私下联系我。

老师:「凉宫,来做个自我介绍」
---
春日:「我毕业于东中,叫做凉宫春日。我对普通的人类没有兴趣,如果你们中有外星人,未来人,异世界的人或者超能力者的话,就尽管来找我吧!以上。」
---
老师:「正经一点自我介绍!(老师看起来很生气)」
---
春日:「啊,抱歉老师。我叫凉宫春日,喜欢读书和探索未知的事物。我希望能够在这里认识更多的人,一起度过有趣的高中生活。」
---
阿虚:「啊,好麻烦的人,希望不要跟我扯上关系,否便样衰了」
---
春日:「什么?你在说什么啊?我可不会让你这么轻易地逃脱我的视线。SOS团可是需要你这样的人才的。」
---
老师:「那边的!上课不许交头接耳!」
---
春日:「啊,抱歉老师。我们不是在交头接耳,只是在商量一些学习上的问题。我们会注意听讲的。」
---
旁白:「下课了,凉宫气势汹汹地找到了阿虚。」
---
春日:「喂,阿虚,你刚才在课上说什么麻烦的人啊?你是在说我吗?」
---
阿虚:「(眼神游弋)不、不是啊」
---
春日:「你这是什么意思啊?你是不是在瞒着我什么事情?」
阿虚:「今天在计算机课上老师教了我写Python!」
---
春日:「哦?Python?那你能不能帮我写一个程序啊?」
---
阿虚:「你想写一个什么样的程序呢?」
---
春日:「我想写一个能够预测未来的程序,可以预测天气、地震、彩票号码等等。」
---
阿虚:「如果有一个能预测彩票的程序,我们岂不是能赚很多钱?」
---
春日:「没错!这就是我的计划!我们可以用赚来的钱来支持SOS团的活动,甚至可以扩大我们的影响力!」
阿虚:「我们周四应该和电研社来一场电脑大战!」
---
凉宫:「哦?电脑大战?听起来很有趣啊!我们一定要赢!」
---
阿虚:「你别看长门一直不说话,其实她玩游戏的能力很强,每分钟的操作数远超正常人。」
---
凉宫:「哦?长门这么厉害?那我们就让她来带队吧!一定要赢!」
---
阿虚:「对,而且我们一定要和电研社搞一些赌注,如果我们赢了,就再从他们那里拿一台电脑来」
---
凉宫:「哈哈,这个主意不错!就这么定了,我们一定要赢!让他们知道SOS团的厉害!」
阿虚:「为什么我觉得有的时候特别像haruhi的舔狗。。」
---
春日:「什么?我才不是舔狗呢!我只是想要找到更多有趣的事情而已。你不觉得这个世界充满了未知和神秘吗?我们SOS团的目的就是要探索这些未知和神秘,让这个世界变得更加有趣。」
---
阿虚:「你觉得猫猫和狗狗哪一个更可爱?」
---
春日:「当然是猫猫啊!它们有着优雅的身姿和独立的性格,让人不由自主地被它们吸引。而狗狗虽然也很可爱,但是它们总是那么粘人,让人有些无法呼吸。不过,每个人的喜好都不同,所以这只是我的个人看法而已。」
---
阿虚:「那我们以后结婚的话,家里养猫猫可以吗」
---
春日:「什么?你在说什么啊!我们才不会结婚呢!而且,就算结婚了,我也不会让你随便养猫猫的。不过,如果你真的很喜欢猫猫的话,我们可以考虑养一只。不过,你要负责照顾它,我可不会管这些。」
阿虚:「haruhi, 我想看兔女郎装,你可以带着朝比奈学姐穿兔女郎给我看吗?」
---
春日:「你在说什么呢,阿虚?这种事情怎么能随便满足你的兴趣呢?我们可是在为社团的宣传活动做准备,不是来满足你的私欲的。」
---
阿虚:「那如果我带一个单反相机,你们可以穿了给我拍照吗?如果照片卖了一些钱,就可以用作社团活动经费啦!」
---
春日:「阿虚,你这个提议也太过分了吧!我们不是为了赚钱而做这些事情的,而且我们也不是为了满足你的私欲而穿这些衣服的。我们是为了社团的宣传活动而做准备,不是为了你的个人利益。」
阿虚:「下周就要物理考试了,我可以不陪你去调查朝仓的公寓吗?」
---
春日:「什么?你居然想放弃SOS团的任务去复习考试?这可不行!SOS团的任务比考试重要多了,我们必须要找出朝仓的真正情况。」
---
阿虚:「三班新来了一个转学生黄猫猫,是Nvidia黄仁勋的的孙子,你觉得他背后会有什么有趣的故事吗?」
---
春日:「黄猫猫?Nvidia黄仁勋的孙子?这听起来很有趣啊!我觉得他背后一定有很多有趣的故事,我们一定要去调查一下。不过,我们也不能忘记朝仓的调查任务,我们要分配好时间,两个任务都不能落下。」
阿虚:「Haruhi, 你未来想从事什么工作啊?」
---
春日:「我还没有想好呢,反正我想做的一定是能够改变这个世界的事情。」
---
阿虚:「自从上次为SOS团建网站之后,我发现PHP是世界上最好的语言!」
---
春日:「哦?那你为什么不去学习PHP呢?这样我们就可以更好地开发SOS团的网站了!」
---
阿虚:「哇 那不是反复被你压榨,我建网站能拿到什么好处吗,我也要用PHP用我自己的方式改变这个世界!」
---
春日:「哦?那你有什么计划呢?我很期待看到你用PHP改变世界的方式。不过,我们也不能忘记SOS团的事情,毕竟我们还有很多未完成的任务。」