DataScienceGame 2017

How to process it?

Genre_id, media_id, album_id, user_id, artist_id -> aggregate (e.g. count)
Ts_listen, release_date: date under 2 different formats -> put to same format
Context_type -> one-hot-encode: 74 values from 0 to 73
Platform_name, platform_family -> one-hot encode? Aggregate? (only 3 values each)
Media_duration -> this one seems simple, keep as is
Listen_type -> probably keep as is, but not sure
User_gender -> keep as is (sexism!)
User_age -> keep as is

compute mean length for an album, an artist, a genre, mean of is_listened for each user, each artist, etc using the date
Using the date, we can compute the number of songs he listened in a row

I think the key here is correctly using the information about artist, etc…

Name		Name	Last commit message	Last commit date
Latest commit History 42 Commits
.ipynb_checkpoints		.ipynb_checkpoints
lib		lib
models		models
predictions		predictions
tensorboard		tensorboard
.gitignore		.gitignore
DSG_qualifs.ipynb		DSG_qualifs.ipynb
DataScienceGame2017workdocument.docx		DataScienceGame2017workdocument.docx
LDA.ipynb		LDA.ipynb
README.md		README.md
Very Last Sim Feature.ipynb		Very Last Sim Feature.ipynb
__init__.py		__init__.py
agalashov_notebook.ipynb		agalashov_notebook.ipynb
compute_series_of_constant_listened.ipynb		compute_series_of_constant_listened.ipynb
context_type-visualisation.ipynb		context_type-visualisation.ipynb
correct_median.ipynb		correct_median.ipynb
durations-preprocessing.ipynb		durations-preprocessing.ipynb
mean_per_user.ipynb		mean_per_user.ipynb
separating_train_cross_validation.ipynb		separating_train_cross_validation.ipynb
temporal-dependencies.ipynb		temporal-dependencies.ipynb