Skip to content

version simplifiée du fichier N

AlexisEidelman edited this page Jan 21, 2015 · 5 revisions

Le fichier N a initialement 27 variables. Un certain nombre d'entre elles sont redondantes. En particulier, 10 variables qualitatives sont présentes à la fois avec une modalité codée et avec les libellés associés à ces modalités.

On peut ou bien conserver les libellés, c'est le choix qui a été fait par OpenDataSoft ou bien conserver les modalités et associés les libellés par ailleurs, ce choix a été fait ici.

Dans le premier cas, la base qui fait au départ 2,51 Go produit un csv qui fait 2,34 Go dans le second, les fichiers finaux font 800 Mo.

On trouvera un code qui peut générer ces bases ici

Clone this wiki locally