• Cloudera Cloudera
  • Apache Oozie

    El modelo para Enterprise Hadoop incluye las capas de procesamiento y almacenamiento de datos originales de Apache™ Hadoop e incorpora componentes para servicios imprescindibles para las empresas en una arquitectura de datos moderna: integración y gobernanza de datos, seguridad y operaciones. Apache Oozie ofrece algunos de los servicios operacionales para clústeres Hadoop, sobre todo en lo relativo a la programación de trabajos dentro del clúster.

    Finalidad de Oozie

    Apache Oozie es una aplicación de Java Web que permite programar trabajos en Apache Hadoop. Oozie combina múltiples trabajos de forma secuencial en una única unidad de trabajo lógica. Se integra en la pila de Hadoop, cuya arquitectura se basa principalmente en YARN, y es compatible con trabajos Hadoop para Apache MapReduce, Apache Pig, Apache Hive y Apache Sqoop. Oozie también puede programar trabajos específicos de un sistema, como programas Java o scripts de shell.

    Apache Oozie es una herramienta para operaciones de Hadoop que permite a los administradores del clúster diseñar transformaciones de datos complejas a partir de múltiples tareas de componentes. De este modo se obtiene un mayor control sobre los trabajos y es más fácil repetirlos a intervalos predeterminados. En esencia, Oozie ayuda a los administradores a sacar más partido de Hadoop.

    Hay dos tipos de trabajos básicos en Oozie:

    • Los trabajos Oozie Workflow son grafos acíclicos dirigidos (DAG), que especifican una secuencia de acciones para ejecutarlas. El trabajo Workflow tiene que esperar.
    • Los trabajos Oozie Coordinator son trabajos Oozie Workflow recurrentes que se activan según criterios temporales y de disponibilidad de los datos.

    Oozie Bundle permite combinar varios trabajos Coordinator y Workflow y gestionar el ciclo de vida de estos trabajos.

    Cómo funciona Oozie

    Un flujo de trabajo Oozie Workflow es un conjunto de acciones organizadas en un grafo acíclico dirigido (DAG, por sus siglas en inglés). Los nodos de control definen la cronología del trabajo y establecen las reglas para iniciar y terminar un flujo de trabajo. De este modo, Oozie controla la ruta de ejecución del flujo de trabajo con nodos de decisión, bifurcación y unión. Los nodos de acción activan la ejecución de las tareas.

    Oozie activa acciones de flujo de trabajo, pero Hadoop MapReduce las ejecuta. Esto permite a Oozie aprovechar otras capacidades en la pila de Hadoop para equilibrar las cargas y gestionar los fallos.

    Oozie detecta la finalización de las tareas mediante devolución de llamadas y sondeos. Cuando Oozie inicia una tarea, proporciona una URL HTTP de devolución de llamada única. De este modo, notifica la finalización de la tarea a esta URL. Si la tarea no puede invocar la URL de devolución de llamada, Oozie sondea la tarea para ver si se ha terminado.

    Normalmente, es necesario ejecutar los flujos de trabajo de Oozie a intervalos de tiempo regulares, pero en coordinación con niveles impredecibles de disponibilidad de datos o eventos. En estas circunstancias, Oozie Coordinator permite modelar los activadores de ejecución de flujos de trabajo en forma de predicados de datos, de tiempo o de eventos. La tarea de flujo de trabajo se inicia cuando se cumplan dichos predicados.

    Oozie Coordinator también puede gestionar múltiples flujos de trabajo que dependen de los resultados de los siguientes flujos de trabajo. Los resultados de los siguientes flujos de trabajo son la información que recibirá el siguiente flujo de trabajo. Esta cadena se llama “proceso de aplicaciones de datos”.

    Your form submission has failed.

    This may have been caused by one of the following:

    • Your request timed out
    • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.