Données Analytics multicanaux pour un visiteur

Avec Adobe Analytics Data Workbench, les analystes peuvent interroger les activités des visiteurs sur différents canaux. Cet article explique comment ils fusionnent les requêtes en une seule donnée de visiteur.

Remarque :

Cet article est strictement une illustration simplifiée. Par exemple, les données de chaque visiteur sont constituées de références/pointeurs au lieu de chaînes de caractères réelles, et les données provenant de différentes sources peuvent nécessiter un prétraitement pour cartographier l’identifiant du visiteur.

Vue abstraite

Ce diagramme montre comment plusieurs sources fusionnent en un seul ensemble de données. Passons en revue chaque section.

Données du journal brut

Sur la gauche, nous avons des sources de journal. Dans cet exemple, nous utilisons les journaux du serveur Web et les transactions en magasin (TPV). Data Workbench peut prendre n’importe quelles données de journal d’événements tant qu’elles ont un identifiant visiteur et un horodatage.

Notez qu’elles sont isolées à ce stade, le journal Web montre ce que les visiteurs font sur le site Web tandis que le journal POS indique uniquement les données en magasin.

Architecture des données

Au milieu, nous disposons de l’architecture des données. Cette opération définit la manière dont chaque source de journal doit être adaptée. Elle indique également comment elles doivent être transformées en un formulaire plus lisible.

Données de visiteur traitées (ensemble de données)

Enfin, les données d’événements de tous les canaux sont stockées dans une seule donnée visiteur, une sorte de carte contenant toutes les données d’événements pour un visiteur anonyme. Contient ce qu’un visiteur a fait sur le Web en plus de ce qu’il a acheté dans les magasins.

En termes simples les données d’entrée brutes sur la gauche se déversent dans les données visiteur traitées sur la droite en utilisant architecture de donnée comme modèle.

Examen plus approfondi

Revoyons ce processus à l’aide de données d’exemple.

À partir d’un journal de serveur Web, chaque entrée de journal est décodée, puis placée sur les dimensions pertinentes du schéma. Dans cet exemple, le visiteur « anonymous001 » a acheté un produit et a sélectionné le retrait en magasin.

Les transactions en magasin sont également décodées pour le même visiteur. Cette personne a récupéré le produit le lendemain et a décidé d’ajouter deux autres articles à la caisse enregistreuse.

Les données d’activité sont ensuite transformées en format adapté aux requêtes. Dans ce cas, la référence du produit est remplacée par son nom à l’aide de transformation de la recherche.

Une fois que les données de tous les canaux ont été combinées, nous obtenons les données d’un visiteur sur une seule carte.

Cette carte montre qu’un client anonyme a commandé un élément en ligne, le retire au magasin et a acheté des éléments supplémentaires. Contrairement aux données d’entrée originales, une seule carte donne un aperçu global des activités des visiteurs sur différents canaux.

Exécution de requêtes

Maintenant qu’une donnée visiteur est traitée, considérons la requête analytique suivante.

Parmi les clients qui ont fait des commandes avec retrait au magasin sur le Web, combien ont acheté des articles supplémentaires au magasin ? De plus, quels sont les produits populaires ajoutés en magasin ?

En regardant la carte ci-dessus, le moteur de recherche devrait correspondre :

+1 visiteur pour la métrique de ramassage en magasin
+1 produit pour le "câble USB" pour la dimension d’achat supplémentaire
+1 produit pour les "puces Kale" pour la dimension d’achat supplémentaire

Répéter cette micro-requête pour toutes les autres cartes donnera éventuellement la réponse à l’ensemble de données.

Considération de performance

Cette approche présente les avantages suivants :

Les cartes sont autonomes, de sorte que les micro-requêtes sont complétées par moins de références externes coûteuses.
Ces cartes peuvent facilement être distribuées pour le traitement parallèle.

Ensemble de données

Toutes les cartes sont stockées sur un support de carte appelé DataSet, appelé communément "temp.db" en raison de son nom de fichier.

Comme cette roue ne cesse de tourner, chaque carte peut être évaluée une par une. Lorsque la même carte a été affichée à nouveau, vous savez qu’un balayage est terminé et que l’ensemble de données a été évalué.

Nous couvrons le cycle de vie global du jeu de données sur le prochain article ici.