Dieser Artikel ist eine einfache Illustration des Produkts. Er dient dazu, Analysten dabei zu helfen, den Vorgang zu visualisieren, um Probleme zu beheben.
Übersicht
In unserem vorherigen Beitrag wird besprochen, wie Protokolldaten aus mehreren Kanälen, Daten für einzelne Besucher formen. Wir versetzen jetzt unseren Fokus auf einen vollständigen Datensatz.
Protokollverfahren - Datensatz erstellen -
Der Aufbau des Datensatzes nennt sich Protokollverfahren, welches aus zwei Phasen besteht.
(1) Protokollverarbeitungsphase
Erstens müssen Server rohe Protokolldateien dekodieren, sie als Besucherdaten (Kontaktkarte) organisieren und auf einem Datensatz (Kartenhalter) speichern. Diese Phase ist auch bekannt als Schneller Eingang.
In dieser Phase müssen Zehntausende große Protokolldateien zeilenweise entschlüsselt werden. Die Ausführung dieser Phase braucht erheblich viel Zeit.
(2) Umwandlungsphase
Obwohl es in der vorherigen Phase hauptsächlich über die Dekodierung von rohen Protokolldaten ging, konzentriert sich diese Phase auf die Transformation dekodierter Daten in eine nützliche Form. Diese Phase ist auch bekannt als Schnelles Zusammenführen.
Zu diesem Zeitpunkt arbeiten Server an einem Datensatz, der für schnellen Zugang, im Gegensatz zu flachen Protokolldateien, kleiner und organisierter ist. Aus diesem Grund ist diese Phase normalerweise wesentlich schneller als die Protokollverarbeitungsphase.
Während der Ausführung wird der fertige Teil schrittweise für eine Abfrage verfügbar.
Die Verwendung von ressourcenintensiven Umwandlungen, wie z. B. die CrossRows-Umwandlung, kann sich auf die Länge dieser Phase sowie die Festplattenbelegung auswirken.
Umwandlungsaufgabe während der Protokollverarbeitungsphase
Einfachere Umwandlungstypen können während der Protokollverarbeitungsphase ausgeführt werden, ohne dass auf die Umwandlungsphase gewartet wird. Die folgende Abbildung führt die gleiche Nachschlageumwandlung durch, die im vorherigen Beitrag in einem einzigen Durchlauf beschrieben ist.
Manche Wandlungstypen müssen bis zum Abschluss der Protokollverarbeitungsphase warten. So können z. B. CrossRows-Umwandlungen andere Felder auf einer Karte als Eingabe enthalten, die noch nicht dekodiert wurden. Sie können später, während der Umwandlungsphase, ausgeführt werden.
Datenverarbeitung in Echtzeit - Kontinuierliche Aktualisierung -
Selbst nach Abschluss des Protokollverfahrens werden kontinuierlich neue Daten hinzugefügt, um den Datensatz auf dem neuesten Stand zu halten. Dieser kontinuierliche Zuwachs nennt sich Echtzeit-Verarbeitungsmodus, und ein Server führt diesen Vorgang in der Hintergrundebene durch, während er auf Abfragen reagiert.
Beim Versorgen über ein Sensor-Modul werden Ereignisdaten in Minuten oder sogar schneller auf einen ausreichend großen Cluster verarbeitet. Analysten können dann Abfragen auf Ereignisse nahezu in Echtzeit ausführen.
Wenn jedoch die Anzahl der Protokolldaten steigt, können sie den Cluster überlasten. Die Anzahl der Besucher kann sich beispielsweise am Tag einer Produktveröffentlichung mehrmals multiplizieren. Dadurch werden die ausstehenden Daten angehäuft, wodurch der Abstand zwischen der As-Of-Zeit und der aktuellen Zeit größer wird.
- Eine Verspätung einholen -
Sobald die As-Of-Zeitverzögerung den Schwellenwert erreicht, geht der Datensatz in die Protokollverarbeitungs- und Umwandlungsphase zurück. Das ist hilfreich beim Einholen der Verzögerung.
Protokollverarbeitungsphase (inkrementell) auch bekannt als schnelle Eingabe: Da die vorhandenen Daten im Datensatz wiederverwendet werden können, werden nur ausstehende Daten dekodiert, und es wird relativ schnell bearbeitet. In dieser Phase stoppt der Datensatz die Annahme von Abfragen und fokussiert alle seine Ressourcen auf die Protokollverarbeitung.
Umwandlungsphase (vollständig) auch bekannt als schnelle Zusammenführung: Die Einführung neu dekodierter Daten führt dazu, dass vorhandene konvertierte Daten ungültig werden. Daher muss die Umwandlungsphase erneut vollständig ausgeführt werden. Teildatensätze werden für eine Abfrage zur Verfügung gestellt, während sie verarbeitet wird.
Nachdem alle Transformationen abgeschlossen sind, kehrt der Datensatz wieder in den Echtzeit-Verarbeitungsmodus zurück.
Die Art und Weise, wie Daten im Cluster geschrieben werden, hängt von Fall zu Fall ab. Ihre Organisation kann Daten mithilfe des Sensors, des täglichen Feeds aus dem Adobe Analytics-Bericht (SiteCatalyst), von Protokolldateien aus verschiedenen benutzerdefinierten Anwendungen oder einer Kombination von Anwendungen erfassen. Das oben gezeigte Beispiel illustriert das absolute Minimum des Mechanismus. Wenden Sie sich bitte an Ihren Adobe-Berater, um den besten Plan für Ihr jeweiliges Szenario auszuarbeiten.
Wiederaufbereitung - Datensatz neu erstellen -
Wesentliche Architekturänderungen, Wiederherstellung nach unerwarteten Schäden oder regelmäßige Wartung erfordert eine erneute Protokollverarbeitung und Wandlung. Solcher Wiederaufbau wird Wiederverarbeitung genannt.
Beispiel: Der Architekt entscheidet, dass er Callcenter-Protokolle integrieren möchte. Er aktualisiert die in Gelb hervorgehobene Datenarchitektur und initiiert die Wiederverarbeitung.
Nach Abschluss der Wiederverarbeitung kann eine komplexe Abfrage wie diese ausgeführt werden.
„Welche Produkte unter den In-store-Zusatzartikeln werden mit höherer Wahrscheinlichkeit zu Support-Anrufen führten?“
Natürlich erfordert die Wiederverarbeitung des gesamten Datensatzes viel Zeit und muss außerhalb der Arbeitszeiten ausgeführt werden.
Wiederumwandlung - Partiale Wiederherstellung -
Wenn ein Architekt Änderungen an Vorgängen der Umwandlung vornehmen muss, reicht möglicherweise nur eine wiederholte Umwandlungsphase aus. Dies wird Wiederumwandlung genannt, und sie überspringt die zeitaufwendige Protokollverarbeitungsphase.
Selbstverständlich wird die Rückwandlung die Abläufe der Protokollverarbeitungsphase nicht retroaktiv aktualisieren, sodass alle Änderungen an diesen eine vollständige Wiederaufbereitung erfordern werden.
- Datensatz-Wartung -
Data Workbench verarbeitet mit Absicht Protokolldaten unendlich und der Datensatz wird bis zur nächsten Wiederaufbereitung größer werden. Um Datenüberlauf zu vermeiden, empfiehlt Adobe Support regelmäßiges Wiederaufbereiten mit aktualisierter Startzeit. Das optimale Verfahren zur Verwaltung von Datensatzgrößen finden Sie hier.