Ciclo di vita del set di dati analitici

Nota:

Questo articolo è solo un'illustrazione semplificata del prodotto.  lo scopo è aiutare gli analisti a visualizzare l'operazione per risolvere i problemi.

Panoramica

Nel nostro precedente articolo, abbiamo discusso come i dati di log da più canali formano un singolo visitatore.  Ora stiamo spostando la nostra attenzione su un intero set di dati.

Log Process - Creazione dataset -

La costruzione del set di dati si chiama Log Process, che consiste in due fasi.

          (1) Fase di Log Processing

In primo luogo, i server devono decodificare i file di dati di log grezzi, organizzarli come dati dei visitatori (scheda di contatto) e memorizzarli in un set di dati (titolare della scheda).  Questa fase è nota anche come Fast Input.

Durante questa fase, decine di migliaia di grandi file di log devono essere decodificati linea per linea. In quanto tale, questa fase richiede una notevole quantità di tempo.

          (2) Fase di trasformazione

Mentre la fase precedente era dedicata alla decodifica dei dati di log grezzi, questa fase si concentra sulla trasformazione dei dati decodificati in una forma più utile.  Questa fase è anche conosciuta come Fast Merge.

A questo punto, i server stanno lavorando su un set di dati, che è più piccolo e organizzato per l'accesso rapido, a differenza dei file di log piatti.  Per questo motivo, questa fase di solito termina molto più rapidamente della fase di Log processing.

Man mano che procede, la porzione finita diventa gradualmente disponibile per una query.

Nota:

L'uso di trasformazioni ad alta intensità di risorse come la trasformazione CrossRows potrebbe espandere la durata di questa fase così come il consumo del disco.

          Operazione di trasformazione durante la fase di Log processing

I tipi di trasformazione più semplici possono essere eseguiti durante la fase di Log processing senza attendere la fase di trasformazione.  L'illustrazione seguente fa la stessa trasformazione di ricerca descritta nell'articolo precedente su una singola scansione.

Nota:

Alcuni tipi di trasformazione devono attendere il completamento della fase di Log processing. Ad esempio, le trasformazioni trasversali di righe incrociate prendono come input altri campi di una scheda, che potrebbero non essere ancora decodificati. Possono essere eseguite successivamente durante la fase di trasformazione.

Elaborazione in tempo reale - Aggiornamento continuo -

Anche dopo aver completato il processo di registrazione, vengono continuamente aggiunti nuovi dati per mantenere aggiornato il set di dati. Questo incremento continuo si chiama modalità Real Time Processing, e un server lo fa in background mentre risponde alle richieste.

Durante l'alimentazione tramite il modulo sensore, i dati degli eventi vengono elaborati in pochi minuti o anche meno su un cluster di dimensioni adeguate.   Gli analisti possono quindi eseguire query sugli eventi in tempo quasi reale.

Tuttavia, se la quantità di dati di log aumenta, possono sovraccaricare il cluster. Ad esempio, il numero di visitatori potrebbe moltiplicarsi più volte in un giorno di uscita del prodotto.  Questo fa sì che i dati in sospeso si accumulino, allargando il divario tra l'ora di scadenza e l'ora corrente.

- Recuperare su un ritardo -

Una volta che il ritardo raggiunge la soglia, il dataset tornerà nuovamente alla fase di Log process e Trasformazione. Questo è utile per recuperare il ritardo.

Fase di Log processing (incrementale), aka Fast Input: poiché i dati di campo esistenti sul set di dati possono essere riutilizzati, solo i dati in attesa vengono decodificati e terminano in maniera relativamente rapida.  Durante questa fase, il dataset smette di accettare le query e concentra tutte le sue risorse sul log processing.

Fase di trasformazione (completa) aka Fast Merge:  L'aggiunta di dati appena decodificati rende i dati trasformati esistenti non validi; pertanto, la fase di trasformazione dovrà essere eseguita di nuovo per intero.  I dati parziali saranno disponibili per una query man mano che procede.

Una volta completate tutte le trasformazioni, il dataset ritorna alla modalità di real time processing.

Nota:

Le modalità di immissione dei dati nel cluster variano caso per caso. L'organizzazione può alimentare i dati utilizzando il sensore, il feed giornaliero da Adobe Analytics Report (SiteCatalyst), file di log da varie applicazioni personalizzate o una combinazione di queste. L'esempio di cui sopra è il minimo indispensabile per illustrare il meccanismo. Contatta il tuo consulente Adobe per elaborare il piano migliore per il tuo caso d'uso specifico.

Reprocess - Ricostruzione del set di dati -

Modifiche sostanziali dell'architettura, il recupero da danni imprevisti o la manutenzione periodica richiede un altro ciclo di Log Process and Transformation.  Tale ricostruzione si chiama Reprocess.

Per esempio, diciamo che l'architetto decide di incorporare i log dei call center. Aggiornerà l'architettura dei dati contrassegnati in giallo e inizierà la rielaborazione.

Una volta terminato il processo di rielaborazione, è possibile eseguire query più sofisticate come questa.

"Tra gli articoli per l'acquisto in negozio, quali prodotti hanno più probabilità di comportare chiamate di supporto?" 

Nota:

Naturalmente, la rielaborazione dell'intero set di dati richiede tempo e deve essere eseguita al di fuori dell'orario di lavoro.   

Ritrasformazione - Ricostruzione parziale -

Quando un architetto deve apportare modifiche alle operazioni della fase di trasformazione, può essere sufficiente ripetere solo la fase di trasformazione. Questa operazione si chiama Retransformation e salterà la lunga fase di Log processing.

Ovviamente, la ritrasformazione non aggiornerà retroattivamente le operazioni della fase di Log processing, quindi qualsiasi modifica ad esse richiederà una rielaborazione completa.

 - Manutenzione del set di dati -

Per progettazione, Data Workbench continua ad elaborare i dati di log a tempo indeterminato, e il set di dati continuerà a crescere fino alla prossima rielaborazione.  Per evitare l'overflow dei dati, il supporto Adobe consiglia una rielaborazione periodica con Start Time aggiornato.   La migliore pratica per gestire le dimensioni dei set di dati può essere trovata qui.

Ottieni supporto in modo più facile e veloce

Nuovo utente?