Cet article est strictement une illustration simplifiée du produit. Elle est conçue pour aider les analystes à visualiser l’opération afin de résoudre les problèmes.
Présentation
Dans notre article précédent, nous vous avons expliqué de la façon dont les données de journal de plusieurs canaux forment une seule donnée de visiteur. Nous nous concentrons maintenant sur un ensemble complet de données.
Processus de journal - Ensemble de données
La construction de l’ensemble de données s’appelle le processus de journal, qui comporte deux phases.
(1) Phase de traitement de journal
Tout d’abord, les serveurs doivent décoder les fichiers de journaux bruts, les organiser comme des données de visiteur (carte de contact) et les stocker dans un ensemble de données (titulaire de carte). Cette phase est également connue sous le nom d’entrée rapide.
Pendant cette phase, les dizaines de milliers de fichiers de journaux volumineux doivent être décodés ligne après ligne. Par conséquent, cette phase prend un temps considérable.
(2) Phase de transformation
Au cours de la phase précédente, toutes les informations concernant le décodage des données brutes de journal sont mises à la disposition des données décodées. Cette phase est également connue sous le nom de fusion rapide.
À ce stade, les serveurs travaillent sur un ensemble de données, qui est plus petit et réduit pour un accès rapide contrairement aux fichiers de journaux plats. C’est pourquoi cette phase se termine généralement plus rapidement que la phase de traitement du journal.
Au fur et à mesure qu’il progresse, la partie complète devient disponible pour une requête.
L’utilisation des transformations gourmandes en ressources telles que la transformation de lignes transversales a pu augmenter leur longueur de ces phases, ainsi que la consommation de disque.
Tâche de transformation au cours de la phase de traitement de journal
Il est possible d’exécuter des types de transformation au cours de la phase de traitement des journaux sans attendre la phase de transformation. L’illustration ci-dessous effectue la même transformation de recherche décrite dans l’article précédent sur un balayage unique.
Certains types de transformation doivent attendre la fin du traitement du journal. Par exemple, les transformations de lignes transversales prennent d’autres champs sur une carte en entrée qui peut ne pas encore être décodée. Elles peuvent être exécutées ultérieurement pendant la phase de transformation.
Traitement en temps réel - Mise à jour continue -
Même après avoir terminé le processus de journal, de nouvelles données sont ajoutées en permanence afin de conserver l’ensemble de données à jour. Cet incrément continu s’appelle le mode d’exploitation en temps réel et les serveurs effectuent cette opération sur un fond tout en répondant aux requêtes.
En alimentation via le module du capteur, les données d’événements sont traitées en quelques minutes ou moins sur une grappe de taille adéquate. Les analystes peuvent alors exécuter des requêtes sur les événements en temps quasi réel.
Cependant, si la quantité de données du journal atteint des pics, elles peuvent surcharger la grappe. Par exemple, le nombre de visiteurs peut se multiplier plusieurs fois le jour du lancement d’un produit. Les données en attente s’accumulent, ce qui élargit l’écart entre l’heure d’alors et l’heure actuelle.
- Rattraper un délai -
Une fois que le délai de temporisation atteint le seuil, l’ensemble de données retourne encore à la phase de traitement et de transformation du journal. Cela l’aidera à rattraper son retard.
Phase de traitement du journal (incrémentiel) ou Saisie rapide : étant donné que les données de champ existantes sur l’ensemble de données peuvent être réutilisées, seules les données en attente sont décodées et cela se termine assez rapidement. Au cours de cette phase, l’ensemble de données cesse d’accepter les requêtes et de mettre en place ses ressources dans le traitement du journal.
Phase de transformation (complète) ou fusion rapide : l’ajout de données nouvellement décodées rend les données transformées existantes invalides ; par conséquent, la phase de transformation doit être effectuée en totalité. Les données partielles seront disponibles pour une requête en cours de progression.
Une fois toutes les transformations terminées, le mode de compression revient en mode de traitement en temps réel.
La façon dont les données sont introduites dans la grappe varie d’un cas à l’autre. Votre organisation peut transmettre des données à l’aide du capteur, du feed quotidien provenant du rapport d’Adobe Analytics (SiteCatalyst), des fichiers de journaux issus de diverses applications personnalisées ou de leur combinaison. L’exemple ci-dessus est le strict minimum pour illustrer le mécanisme. Veuillez contacter votre consultant Adobe pour concevoir la formule la mieux adaptée à votre cas spécifique.
Retraitement - Reconstitution d’un ensemble de données
Des modifications importantes de l’architecture, de la récupération des dommages inattendus ou une maintenance régulière requiert un autre cycle du processus de journal et la de transformation. Une telle reconstruction est appelée Retraitement.
Par exemple, supposons que l’architecte décide d’intégrer les journaux du centre d’appels. Il met à jour l’architecture de données marquée en jaune et lance le retraitement.
Une fois le retraitement terminé, une requête plus sophistiquée peut être exécutée.
« Parmi les articles d’achat supplémentaires en magasin, lesquels sont les plus susceptibles de donner lieu à des demandes de soutien ? »
Bien entendu, le retraitement de l’ensemble de données prend du temps et doit être exécuté en dehors des heures de service.
Retransformation - Reconstitution partielle
Lorsqu’un architecte doit apporter des modifications aux opérations de phase de transformation, la phase de transformation répétée seule peut suffire. On parle de retransformation, et il sautera longuement la phase de traitement du journal.
De toute évidence, la retransformation ne met pas à jour les opérations de la phase de traitement du journal prématurément, de sorte que toute modification qui y est apportée nécessitera un retraitement total.
Module de maintenance de l’ensemble de données
Par conception, le Data Workbench conserve les données de journal de traitement indéfiniment et la compression reste inchangée jusqu’à ce qu’au prochain retraitement. Pour éviter le flux de données, le support Adobe recommande le périodique de retraitement avec l’heure de début mise à jour. Les meilleures pratiques pour gérer la taille de l’ensemble de données sont disponibles ici.