Feature/track raw score #63

isabella618033 · 2023-11-08T00:11:36Z

No description provided.

p-ferreira

What if we streamline the whole process into an abstraction where:

get_rewards return a BaseRewardEvent,
BaseRewardModel.apply returns a BaseRewardEvent
BaseRewardEvent has the logic to convert it itself into a dictionary, from which we can spread its properties later in the forward call and in the event schema
Complement the event schema with the expected new fields

prompting/validators/reward/dahoas.py

prompting/validators/forward.py

prompting/validators/reward/diversity.py

prompting/validators/reward/nsfw.py

prompting/validators/mock.py

p-ferreira

LGTM (BTW I set the PR as ready for review by accident, apologies for that)

One thing missing though:

Fixing branch conflicts

prompting/validators/reward/dpo.py

steffencruz · 2023-11-08T23:09:46Z

prompting/validators/reward/open_assistant.py

        with torch.no_grad():
            inputs = self.tokenizer(prompt, completion, return_tensors="pt").to(
                self.device
            )
-            return float(self.model(**inputs).logits[0].cpu().detach())
+            reward_event.reward = float(self.model(**inputs).logits[0].cpu().detach())


shouldn't this be reward_event.score since its float? where is reward_event.reward:Bool?

rlhf is a reward model (not filter model), so there is no bool reward, and the score = reward

Co-authored-by: Steffen Cruz <steffenjcruz@gmail.com>

…or/text-prompting into feature/track_raw_score

isabella618033 added 6 commits November 7, 2023 23:21

defining rewardresult dataclass and reward event

1ba9777

moved event addition into reward model apply function

22a201f

clean up relevence

270fb93

apply to blaclist

e0b0f9d

fixes

0aeddc2

changed get_reward returns for all

7330314

isabella618033 changed the base branch from main to features/ngram-blacklist November 8, 2023 00:13

p-ferreira mentioned this pull request Nov 8, 2023

Implement ngram-based blacklist filter #54

Merged

3 tasks

p-ferreira added the 2.1.2 label Nov 8, 2023

isabella618033 added 2 commits November 8, 2023 19:28

added BaseRewardEvent

e1023a5

update event schema

6022706

p-ferreira reviewed Nov 8, 2023

View reviewed changes

prompting/validators/reward/dahoas.py Outdated Show resolved Hide resolved

prompting/validators/forward.py Outdated Show resolved Hide resolved

prompting/validators/reward/diversity.py Outdated Show resolved Hide resolved

prompting/validators/reward/nsfw.py Outdated Show resolved Hide resolved

isabella618033 added 5 commits November 8, 2023 20:42

black format

e374246

fix mock

d76bfd2

get rewards -> List[BaseRewardEvent]

c9bbae2

schema update

21bbd62

black formatting

1d033af

p-ferreira reviewed Nov 8, 2023

View reviewed changes

prompting/validators/mock.py Show resolved Hide resolved

p-ferreira approved these changes Nov 8, 2023

View reviewed changes

p-ferreira marked this pull request as ready for review November 8, 2023 22:26

isabella618033 added 2 commits November 8, 2023 22:49

Merge branch 'features/ngram-blacklist' into feature/track_raw_score

9b318f0

black formatting

27badfc

steffencruz reviewed Nov 8, 2023

View reviewed changes

isabella618033 and others added 7 commits November 8, 2023 18:32

retain comments

abd0f17

Co-authored-by: Steffen Cruz <steffenjcruz@gmail.com>

retain comments

00fe827

Co-authored-by: Steffen Cruz <steffenjcruz@gmail.com>

retain comments

6b02563

Co-authored-by: Steffen Cruz <steffenjcruz@gmail.com>

retain comments

2794c32

Co-authored-by: Steffen Cruz <steffenjcruz@gmail.com>

retain comments

3531257

Co-authored-by: Steffen Cruz <steffenjcruz@gmail.com>

retain comments

fda08af

Co-authored-by: Steffen Cruz <steffenjcruz@gmail.com>

retain comments

c68a22a

Co-authored-by: Steffen Cruz <steffenjcruz@gmail.com>

isabella618033 and others added 3 commits November 8, 2023 18:34

retain comments

820e6a5

Co-authored-by: Steffen Cruz <steffenjcruz@gmail.com>

fixes

b300460

Merge branch 'feature/track_raw_score' of https://github.com/opentens…

93dc591

…or/text-prompting into feature/track_raw_score

p-ferreira mentioned this pull request Nov 9, 2023

2.1.2 Release #67

Merged

isabella618033 added 2 commits November 9, 2023 15:14

black format

00a201b

black formatted

07882b7

p-ferreira merged commit beab14a into features/ngram-blacklist Nov 9, 2023
4 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Feature/track raw score #63

Feature/track raw score #63

isabella618033 commented Nov 8, 2023

p-ferreira left a comment •

edited

Loading

p-ferreira left a comment •

edited

Loading

steffencruz Nov 8, 2023

isabella618033 Nov 8, 2023

Feature/track raw score #63

Feature/track raw score #63

Conversation

isabella618033 commented Nov 8, 2023

p-ferreira left a comment • edited Loading

Choose a reason for hiding this comment

p-ferreira left a comment • edited Loading

Choose a reason for hiding this comment

steffencruz Nov 8, 2023

Choose a reason for hiding this comment

isabella618033 Nov 8, 2023

Choose a reason for hiding this comment

p-ferreira left a comment •

edited

Loading

p-ferreira left a comment •

edited

Loading