Este artículo es estrictamente una ilustración simplificada del producto. Su objetivo es ayudar a los analistas a visualizar la operación para solucionar problemas.
Descripción general
En nuestro artículo anterior, tratamos sobre cómo los datos de registro de varios canales forman un solo comportamiento de los visitantes. Ahora estamos cambiando nuestro enfoque a todo un conjunto de datos.
Proceso de registro - Construcción del conjunto de datos -
La construcción del conjunto de datos se denomina Proceso de registro, que consta de dos fases.
(1) Fase de procesamiento de registros
En primer lugar, los servidores deben decodificar los archivos de datos de registro sin procesar, organizarlos como comportamiento de los visitantes (tarjeta de contacto) y almacenarlos en un conjunto de datos (titular de la tarjeta). Esta fase también se conoce como Entrada rápida.
Durante esta fase, se deben decodificar decenas de miles de archivos de registro grandes línea por línea. Como tal, esta fase lleva una cantidad de tiempo considerable.
(2) Fase de transformación
Mientras que la fase anterior se centraba en la decodificación de los datos de registro sin procesar, esta fase se centra en la transformación de los datos decodificados en una forma más útil. Esta fase también se conoce como Fusión rápida.
Llegados a este punto, los servidores están trabajando en un conjunto de datos que, a diferencia de los archivos de registro plano, es más pequeño y está organizado para un acceso rápido. Por esta razón, esta fase termina normalmente mucho más rápido que la fase de procesamiento de registros.
A medida que avanza, la parte terminada va estando disponible para una consulta.
El uso de transformaciones intensivas en recursos, como la transformación CrossRows, podría ampliar la duración de esta fase, así como el consumo de disco.
Tarea de transformación durante la fase de procesamiento de registros
Los tipos de transformación más sencillos pueden ejecutarse durante la fase de procesamiento de registros sin esperar a la fase de transformación. La siguiente ilustración hace la misma transformación de búsqueda descrita en el artículo anterior en un solo barrido.
Algunos tipos de transformación deben esperar a que finalice la fase de procesamiento de registros. Por ejemplo, las transformaciones de las filas cruzadas toman otros campos de una tarjeta como entrada, los cuales pueden no estar decodificados todavía. Se pueden ejecutar más adelante, durante la fase de transformación.
Procesamiento en tiempo real - Actualización continua -
Incluso después de completar el proceso de registro, se añaden nuevos datos continuamente para mantener el conjunto de datos actualizado. Este incremento continuo se denomina modo de procesamiento en tiempo real y un servidor lo lleva a cabo en segundo plano mientras responde a las consultas.
Cuando se alimenta a través del Sensor módulo, los datos de los eventos se procesan en minutos o incluso en menos en un cluster de tamaño adecuado. Entonces, los analistas pueden realizar consultas sobre eventos casi en tiempo real.
Sin embargo, si la cantidad de datos de registro alcanza su máximo, pueden sobrecargar el clúster. Por ejemplo, el número de visitantes podría multiplicarse varias veces en el día de lanzamiento de un producto. Esto hace que los datos pendientes se acumulen, lo que amplía la brecha entre ese momento y la hora actual.
- Ponerse al día con un retraso -
Una vez que el retraso del tiempo alcance el umbral, el conjunto de datos volverá a la fase de proceso de registro y transformación. Esto le ayudará a ponerse al día con el retraso.
Fase de procesamiento de registros (progresiva) también conocida como Entrada rápida: Debido a que los datos de campo existentes en el conjunto de datos se pueden reutilizar, solo se decodifican los datos pendientes y terminan relativamente rápido. Durante esta fase, el conjunto de datos deja de aceptar consultas y centra todos sus recursos en el procesamiento de registros.
Fase de transformación (completa) también conocida como Fusión rápida: La adición de datos recientemente decodificados hace que los datos transformados existentes no sean válidos. Por lo tanto, la fase de transformación tendrá que ser ejecutada de nuevo en su totalidad. Los datos parciales estarán disponibles para una consulta a medida que avance.
Una vez que todas las transformaciones se completen, el conjunto de datos vuelve al modo de procesamiento en tiempo real.
La forma en que los datos se introducen en el clúster varía de caso a caso. Su organización puede alimentar los datos mediante un sensor, una fuente diaria de informes de Adobe Analytics (SiteCatalyst), archivos de registro de varias aplicaciones personalizadas o una combinación de ellas. El ejemplo anterior es mínimo para ilustrar el mecanismo. Póngase en contacto con su asesor de Adobe para idear el mejor plan para su caso de uso específico.
Reprocesamiento - Reconstrucción del conjunto de datos -
Los cambios sustanciales en la arquitectura, la recuperación de daños inesperados o el mantenimiento periódico requieren otra ronda de procesos de registro y transformación. Esta reconstrucción se llama Reprocesamiento.
Por ejemplo, digamos que el arquitecto decide incorporar los registros del centro de llamadas. Actualizará la arquitectura de datos marcada en amarillo e iniciará el reprocesamiento.
Una vez finalizado el reprocesamiento, se puede ejecutar una consulta más sofisticada como esta.
Entre los artículos de compra adicionales en la tienda, ¿qué productos tienen más probabilidades de dar lugar a llamadas de soporte?
Naturalmente, el reprocesamiento de todo el conjunto de datos lleva tiempo y debe realizarse fuera del horario laboral.
Retransformación - Reconstrucción parcial -
Cuando un arquitecto necesita hacer cambios en las operaciones de la fase de transformación, repetir dicha fase puede ser suficiente. Esto se llama retransformación, y saltará la extensa fase de procesamiento de registros.
Obviamente, la retransformación no actualizará las operaciones de la fase de procesamiento de registros de forma retroactiva, por lo que cualquier cambio en ellas requerirá un reprocesamiento total.
- Mantenimiento del conjunto de datos -
Por diseño, Data Workbench sigue procesando datos de registro de forma indefinida y el conjunto de datos seguirá creciendo hasta el próximo reprocesamiento. Para evitar el exceso de datos, el equipo de soporte de Adobe recomienda hacer un reprocesamiento periódico con la hora de inicio actualizada. La práctica recomendada para administrar el tamaño de los conjuntos de datos se puede encontrar aquí.