[Skip Global Navigation]

Bienvenue sur le site de SPSS Maghreb
SPSS Préparation des Données

Améliorez l'étape de préparation des données pour obtenir des résultats plus précis

 

Avant de procéder à l’analyse, tous les chercheurs doivent préparer leurs données. Bien que PASW Statistics Base propose des outils pour cette préparation, il arrive cependant que des techniques plus sophistiquées soient nécessaires. Le module PASW Data Preparation identifie facilement les obersvations inhabituelles ou non valides, les variables et les valeurs de données ; visualise les données manquantes, affiche la distribution des variables et travaille de façon plus précise avec les algorithmes en utilisant des variables nominales. Cette approche optimise donc le processus de préparation de données. Vous êtes prêt à analyser vos données plus rapidement et vous aboutissez à des conclusions plus précises.

PASW Data Preparation peut être installé dans une configuration client uniquement, mais, pour de meilleures performances, vous pouvez également l'utiliser dans une configuration client/serveur, avec PASW Statistics Server.

Vérification des données

La validation des données reste encore largement aujourd’hui un processus manuel. Vous pouvez par exemple analyser la fréquence de vos données, imprimer ces fréquences, déterminer ce qui doit être corrigé et vérifier toutes les observations. Il va sans dire que toutes ces opérations prennent du temps. De plus, étant donné que chaque analyste au sein de l'entreprise peut utiliser une méthode légèrement différente, maintenir la cohérence d’un projet à l‘autre peut s’avérer important.

Pour éliminer les vérifications manuelles, utilisez la procédure validation des données. Elle vous permet d’appliquer des règles de validation de données quelque soit le type de la variable (qu’il s’agisse de variables nominales ou continues). Par exemple, si vous analysez des données issues d’enquête contenant des questions de type échelle Likert à cinq points, utilisez la procédure de validation des données pour appliquer une règle à ces questions et donc marquer tous les cas situés en dehors de cette plage de 1 à 5 (1 à 5). Vous pouvez recevoir des rapports sur les observations non invalides et des résumés sur les violations de règles indiquant le nombre d'observations concernées. Vous pouvez spécifier des règles de validation pour chacune des variables (par exemple des vérifications de plage) ainsi que des règles de validationet entre plusieurs variables (par exemple les variables "hommes" et "enceintes").

Grâce à ces informations, vous pouvez déterminer la validité des données et éliminer ou corriger les observations inhabituelles, avant analyse.

Trouver rapidement les valeurs aberrantes multivariées

Empêchez les valeurs aberrantes de déformer vos analyses grâce à la procédure de détection d’anomalies. Cette procédure recherche les observations inhabituelles en fonction des écarts, avec des obsvervations similaires et vous explique ces écarts. En créant une nouvelle variable, vous pouvez marquer les valeurs aberrantes. Lorsque vous avez identifié les observations inhabituelles, vous pouvez les examiner et déterminer si elles doivent ou non être inclus dans vos analyses.

Pré-traitement des données avant construction du modèle

Afin d’utiliser les algorithmes destinés à des variables nominals (tels que les modèles de Bayes et de logit), vous devez regrouper ces variables quantitatives par catégorie avant la construction du modèle. Si ces variables ne sont pas regroupées en catégories, les algorithmes tels que la régression logistique multinominale prendront beaucoup de temps à s'exécuter ou ne se termineront pas. C'est tout particulièrement le cas si vous utilisez un grand ensemble de données. De plus les résultats obtenus peuvent s'avérer difficiles à lire ou à interpréter.

La foctionnalité de recodage définit les points de rupture afin d'obtenir le meilleur résultat possible des algorithmes utilisant des variables nominales.

Avec cette procédure vous pouvez choisir parmi trois types de recodage pour le prétraitement des données avant de construire le modèle :

  • Non supervisé – Créer des groupes avec des même d'observation
  • Supervisé — Prendre le même nombre d'observations en compte la variable cible pour définir les points de recodage. Cette méthode est plus précise que la méthode non supervisé. Cependant elle nécessite beaucoup de calcul.
  • Approche hybride — Combine les approches de recodage non supervisé et supervisé. Cette méthode est particulièrement utile si vous avez une grande quantité de valeurs distinctes.


Téléchargement brochure SPSS Préparation des données