Empirical mutation probability #205

valer1435 · 2023-09-28T13:32:15Z

I have a suspicion that empirical mutation probabilities are different from the theoretical. What I mean:
Here when we call mutation, we iterative choose mutation until it can be applied. Obviously that mutation, f.e. "parameter_change" always can be applied because it can't performs changes affect on verification. But mutations "add_parent", "add_intermediate_node" can make pipeline incorrect. Due to above facts we can stuck in situation, when almost all mutations are "parameters change" (critical in Fedot ts forecasting task when there are a lot of constraints put on a pipeline structure).

What I assume to do:

make experiments in GOLEM and Fedot particularly (in different tasks). Find is there a real problem
change logic of mutation, for example give structural mutations more tries to apply it's mutations

kasyanovse · 2023-09-28T14:08:44Z

Results of experiments for time series forecasting is below. 5 generations.

Code for extracting data from Fedot: pd.Series([y.__name__ if callable(y) else (y if isinstance(y, str) else y.value) for y in chain(*[x.parent_operator.operators for x in chain(*fedot.history.generations) if x.parent_operator is not None])]).value_counts().

Mutation type	Probability
parameter_change_mutation	0.4125
single_change	0.308
single_drop	0.133
single_add	0.1
single_edge	0.042

kasyanovse · 2023-09-28T14:10:40Z

The simplest way to fix it is add new type of graph processor. It should act like verifier and also fix some problems like missing lagged nodes and another stuff.
It is not working for multidimensity data.

valer1435 · 2023-09-28T14:42:28Z

Results for the same experiment for classification task (5 gen)

Mutation type	Probability
parameter_change_mutation	0.47
single_change	0.3
single_add	0.12
single_drop	0.1
add_resample_mutation	0.02

valer1435 · 2023-09-28T14:57:56Z

Results for the same experiment for regression task (9 gen)

Mutation type	Probability
parameter_change_mutation	0.3
single_change	0.2
single_drop	0.17
add_resample_mutation(?)	0.15
single_add	0.1
single_edge	0.08

kasyanovse · 2023-09-29T07:39:41Z

Я глянул неуспешные мутации. Все вполне ожидаемо. Почти все некорректные пайплайны для задачи регрессии связаны с тем, что последняя модель в пайплайне оказывается не предиктивной моделью, а обычным трансформером (в том смысле, что она трансформирует данные).
Логично было бы подкрутить вероятность мутаций так, чтобы мутации параметров были раза в 2-3 реже, чем остальные.
@valer1435 Что скажешь?

kasyanovse · 2023-09-29T08:13:46Z

Регрессия. 5 поколений.

В лоб это не очень хорошо работает) Наверное, нужен балансировщик на уровне подготовки поколения, чтобы выровнять вероятность мутаций. Если ее выравнивание вообще нужно.

Mutation type	Probability
single_add	0.347328
single_change	0.255725
add_resample_mutation	0.164122
single_drop	0.087786
single_edge	0.083969
parameter_change_mutation	0.061069

valer1435 · 2023-10-03T11:44:48Z

Я глянул неуспешные мутации. Все вполне ожидаемо. Почти все некорректные пайплайны для задачи регрессии связаны с тем, что последняя модель в пайплайне оказывается не предиктивной моделью, а обычным трансформером (в том смысле, что она трансформирует данные). Логично было бы подкрутить вероятность мутаций так, чтобы мутации параметров были раза в 2-3 реже, чем остальные. @valer1435 Что скажешь?

Я думаю, что нужно смотреть в сторону того, чтобы повторять одну и ту же мутацию до победного (или хотя бы n раз)

nicl-nno · 2023-10-03T14:31:41Z

Тут есть риск зацикливания, если конкретной мутацией не удастся выйти из тупика.

valer1435 · 2023-10-05T07:56:24Z

Тут есть риск зацикливания, если конкретной мутацией не удастся выйти из тупика.

Да, поэтому предлагается пробовать несколько раз. Ну и предлагается делать более специфичные мутации для временных рядов (например добавлять сразу верку lagged+regression model)

nicl-nno · 2023-10-05T10:02:56Z

Думаю стоит сразу оба варианта реализовать.

maypink · 2023-10-20T11:17:35Z

@kasyanovse предложил повторные попытки применить мутации тоже параллелить, ввиду невозможности нормально реализовать повторные попытки применений без зависающего потока, у меня появилась следующая идея:

"предлагаю сделать хэш мапу индивидов, где ключи — uuid'ы, а значения — хэшмапы с ключами, равным индексам примененных мутаций, а значения — Optional[bool] удалось применить-не удалось или None, если попыток пока не было. индивиды в хэш мапу будут браться из текущей _population, те индвиды там чаще всего будут повторяться.

таким образом, мы пройдемся в первый раз по _population, как это реализовано сейчас, но мутации будем применять по одному разу. во второй и последующие проходы будем для каждого индивида, для которого нет ни одного успешного применения мутации, пытаться применить еще раз то, что уже было. в финальный раз пробовать применить что-то новое. для тех индивидов, для которых выбранная мутация сработала в первый раз, будем либо выбирать следующую, либо не выбирать ничего — в зависимости от набранности следующего поколения".

thereby, задача передается в руки Сергею

kasyanovse · 2023-10-31T09:30:51Z

Краткое резюме по тому, что есть. Тестирование проводилось в федоте на задаче предсказания временных рядов с наличием множества идеальных решений. Изначально федот, при композиции в 5 минут, находит их не очень часто (зависит от коммита в мастере).

Варианты решения проблемы:

Жесткая балансировка мутаций в попытках строго соблюсти требуемые пропорции вполне ожидаемо не работает. Репродюсер всегда вылетает по условию предельного количества итераций и не набирает поколение.
Балансировка средней жесткости с повторением непопулярных мутаций. Периодически вылетает по предельному количеству итераций (зависит от величины ограничения), соответственно не всегда набирает поколение. Субъективно хорошо ищет решения (всегда находит идеальное решение), но время композиции выросло почти на порядок. Стандартные кейсы использования федота с таймаутом в 2-5 минут становятся просто неработоспособными.
Мягкая балансировка с ограничением на популярные мутации. Не тестировалась, если кому-то интересно, то можно поковырять.
Повторение неудавшихся мутаций несколько раз. С 2-3 итерациями на каждую мутацию дает неплохое выравнивание мутаций (до идеала очень далеко), при этом работает быстро и всегда набирает поколение. НО! качество композиции не улучшилось ни на грамм. Мне даже кажется, что стало хуже, так как идеальное решение задачи находит редко. Для точной оценки нужен бенчмарк. (Кстати, хорошая идея для бенчмарка: частота нахождения идеального решения за отведенное время и количество различных идеальных вариантов.).

Таблица с долями мутаций в подобранных поколениях при повторении неудавшихся мутаций. Цифры частные, могут сильно плавать в разные стороны.

Мутация	Без повторений	С 1 повторением	С 2 повторениями
parameter_change_mutation	0.41	0.34	0.26
single_change	0.31	0.33	0.22
single_drop	0.13	0.15	0.22
single_add	0.1	0.1	0.16
single_edge	0.04	0.1	0.14

Я бы сделал такой вывод: балансировка мутаций не панацея. Ресурс времени композиции, который можно пустить на балансировку поколений, ИМХО, лучше пустить на обычную, неидеальную композицию. Но вывод субъективный, требуется бенчмарк с различными задачами. Передаю слово в #233.

valer1435 changed the title ~~Mutsa~~ Empirical mutation probability Sep 28, 2023

valer1435 added the research Experiments, hypothesis, research development label Sep 28, 2023

maypink self-assigned this Oct 9, 2023

maypink added enhancement New feature or request architecture (re)design of existing or new framework subsystem labels Oct 9, 2023

maypink mentioned this issue Oct 16, 2023

Release 0.4.0 #220

Closed

4 tasks

kasyanovse mentioned this issue Oct 17, 2023

Parallel population processing #199

Closed

maypink assigned kasyanovse and unassigned maypink Oct 20, 2023

kasyanovse linked a pull request Oct 24, 2023 that will close this issue

Parallel population processing #199

Closed

kasyanovse mentioned this issue Oct 31, 2023

Benchmark for GOLEM #233

Open

kasyanovse removed a link to a pull request Dec 7, 2023

Parallel population processing #199

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Empirical mutation probability #205

Empirical mutation probability #205

valer1435 commented Sep 28, 2023 •

edited by donRumata03

Loading

kasyanovse commented Sep 28, 2023 •

edited

Loading

kasyanovse commented Sep 28, 2023 •

edited

Loading

valer1435 commented Sep 28, 2023 •

edited

Loading

valer1435 commented Sep 28, 2023 •

edited

Loading

kasyanovse commented Sep 29, 2023

kasyanovse commented Sep 29, 2023 •

edited

Loading

valer1435 commented Oct 3, 2023

nicl-nno commented Oct 3, 2023

valer1435 commented Oct 5, 2023

nicl-nno commented Oct 5, 2023

maypink commented Oct 20, 2023

kasyanovse commented Oct 31, 2023 •

edited

Loading

Empirical mutation probability #205

Empirical mutation probability #205

Comments

valer1435 commented Sep 28, 2023 • edited by donRumata03 Loading

kasyanovse commented Sep 28, 2023 • edited Loading

kasyanovse commented Sep 28, 2023 • edited Loading

valer1435 commented Sep 28, 2023 • edited Loading

valer1435 commented Sep 28, 2023 • edited Loading

kasyanovse commented Sep 29, 2023

kasyanovse commented Sep 29, 2023 • edited Loading

valer1435 commented Oct 3, 2023

nicl-nno commented Oct 3, 2023

valer1435 commented Oct 5, 2023

nicl-nno commented Oct 5, 2023

maypink commented Oct 20, 2023

kasyanovse commented Oct 31, 2023 • edited Loading

valer1435 commented Sep 28, 2023 •

edited by donRumata03

Loading

kasyanovse commented Sep 28, 2023 •

edited

Loading

kasyanovse commented Sep 28, 2023 •

edited

Loading

valer1435 commented Sep 28, 2023 •

edited

Loading

valer1435 commented Sep 28, 2023 •

edited

Loading

kasyanovse commented Sep 29, 2023 •

edited

Loading

kasyanovse commented Oct 31, 2023 •

edited

Loading