Micaela Turrin
Media2Cloud
Actualizado: 24 may 2022
Es una solución que configura un flujo de trabajo de ingesta integral sin servidor para migrar recursos multimedia y metadatos asociados a la nube. En otras palabras, toma fotos, videos, audio y documentos de texto como un contrato escaneado; los toma, los analiza y devuelve un resultado según el file.
Este servicio, automatiza el proceso de ingesta de contenido multimedia (imágenes, documentos, videos y audios), utilizando una arquitectura serverless end-to-end de recopilación y análisis. Ofrece una arquitectura estandarizada que permite agilizar la migración y el proceso de la cadena de suministro.
Permite migrar los archivos digitales a la nube y ayuda a extraer información clave, de forma rápida y sin interrupciones, de los archivos multimedia de las cuentas de AWS sin necesidad de tener experiencia en machine learning.
La solución también incluye una interfaz de usuario basada en la web que puede utilizar para ingerir y analizar sus contenidos multimedia.
La solución
Media2Cloud ayuda a optimizar y automatizar el proceso de ingestión de contenido. Configura flujos de trabajo de análisis e ingesta de extremo a extremo sin servidor para mover sus activos de video y metadatos asociados a la nube de Amazon Web Services (AWS). Durante la migración, esta solución analiza y extrae metadatos de aprendizaje automático de su video e imágenes mediante Amazon Rekognition, Amazon Transcribe y Amazon Comprender. Extrae información tabular de documentos escaneados usando Amazon Textract. Esta solución también incluye una interfaz web para ayudarlo a comenzar a ingerir y analizar su contenido de inmediato.

Caso de uso Jukin Media Jukin Media recopila grandes volúmenes de contenido de video generado por el usuario. Anteriormente, dependía de procesos manuales para encontrar videos duplicados, así como para verificar contenido inapropiado e infracciones de licencia.
El proceso de búsqueda de contenido de video adecuado es una tarea enorme.
“Contamos con un gran equipo que rastrea videos a través de múltiples canales, en busca de contenido convincente que atraiga a audiencias globales”, explicó Kris Shinn, vicepresidente de ingeniería de Jukin Media. "El desafío que esto crea es que a menudo hemos seleccionado e ingerido el mismo video con más de un miembro del equipo".
Jukin Media escanea el mundo en busca del mejor y más reciente contenido de video generado por usuarios (UGC). Una vez identificado, ayuda a los consumidores a monetizar clips de video divertidos, divertidos o interesantes, y proporciona a los profesionales del entretenimiento, la publicidad y la publicación esos videos atractivos generados por los usuarios.
Jukin Media tiene una biblioteca de más de 50 000 videoclips seleccionados a mano y la capacidad de descubrir y borrar videos UGC de la web social más amplia.
Como está hecho
Todo comienza con una plantilla de CloudFormation que inicia, configura y ejecuta los servicios de AWS necesarios para implementar esta solución utilizando las mejores prácticas de seguridad y disponibilidad. La misma implementa tres componentes lógicos: una aplicación web frontal, flujos de trabajo de orquestación (ingesta y análisis) y almacenamiento de datos.
La aplicación web proporciona una interfaz para que los clientes carguen contenido multimedia, vean y administren su colección de archivos.

Los flujos de trabajo de ingesta y análisis se inician cuando un cliente carga contenido en la aplicación. El flujo de trabajo de ingestión organiza tareas para ingerir videos, imágenes, audio y documentos de origen sin servidor. El flujo de trabajo de análisis analiza y extrae metadatos de aprendizaje automático del contenido.

Cuando carga un recurso multimedia en el depósito de ingesta de Amazon S3, el flujo de trabajo de ingesta crea un archivo proxy estandarizado y miniaturas para el análisis. Implementa varias tablas de Amazon DynamoDB para almacenar metadatos sobre cada contenido procesado, como indicadores de dónde se almacenan sus archivos proxy en Amazon S3 y los tipos de análisis de IA/ML realizados en él. La solución también implementa un clúster de Amazon OpenSearch Service que permite a los clientes buscar y descubrir metadatos de medios técnicos o metadatos generados por AI/ML. Crea índices por tipo de categorías de aprendizaje automático, como celeb, label, face, faceMatch, segment, moderation, person, textract, transcribe, keyphrase, entityy ingest para permitir que el usuario final ajuste los resultados de la búsqueda. Los documentos indexados se cifran en reposo.

Esta solución implementa dos temas de Amazon SNS. Uno para recibir notificaciones de ingestión, análisis y error de los flujos de trabajo y el otro tema lo utiliza internamente Amazon Rekognition para enviar notificaciones de trabajo a la máquina de estado.
Capacidad
El flujo de trabajo de análisis incluye AWS Step Functions y AWS Lambda que aprovechan Amazon Rekognition, Amazon Transcribe, Amazon Comprehend y Amazon Textract para analizar y extraer metadatos de aprendizaje automático de los archivos proxy generados en el flujo de trabajo de ingesta. La solución Media2Cloud proporciona las siguientes opciones preestablecidas para el proceso de análisis cuando implementa la plantilla: Predeterminado , Todo y Audio y texto.
Predeterminado : activa el reconocimiento de celebridades , las etiquetas , la transcripción , las frases clave , las entidades y los procesos de texto .
Todo : activa todas las detecciones, incluido el reconocimiento de celebridades , las etiquetas , la transcripción , las frases clave , las entidades , el texto , las caras , las coincidencias de caras , la persona , la moderación , el sentimiento y los procesos de temas .
Audio y texto : activa la transcripción , las frases clave , las entidades y los procesos de texto .
La interfaz web también permite al usuario final refinar la configuración de AI/ML durante el proceso de carga. El flujo de trabajo de análisis incluye cuatro máquinas de subestado para procesar el análisis.
La máquina de estado de análisis de video analiza y extrae metadatos de IA/ML del proxy de video mediante las API de video de Amazon Rekognition.
La máquina de estado de análisis de audio analiza y extrae metadatos AI/ML de la transmisión de audio del archivo proxy mediante Amazon Transcribe y Amazon Comprehend.
La máquina de estado de análisis de imágenes analiza y extrae metadatos de imágenes con las API de imágenes de Amazon Rekognition.
La máquina de estado de análisis de documentos extrae texto, imágenes y datos mediante Amazon Textract.
Para iniciar el flujo de trabajo de análisis, una función de Lambda primero verifica una solicitud de análisis entrante y prepara la opción de análisis AI/ML óptima para ejecutar, según el tipo de medio en la solicitud y la disponibilidad de detecciones específicas. Para video y audio, transforma los resultados de metadatos en pistas de subtítulos WebVTT, marcadores de capítulo, frases clave, etiquetas, sentimientos, entidades y ubicaciones. El flujo de trabajo de análisis también puede proporcionar resultados de análisis personalizados si el cliente utiliza modelos de etiquetas personalizados de Amazon Rekognition., vocabularios personalizados de Amazon Transcribe o reconocimiento de entidades personalizadas de Amazon Comprehend . Los resultados de los metadatos de aprendizaje automático se almacenan en un depósito de proxy de Amazon S3 y se indexan en un clúster de Amazon OpenSearch Service. Cuando se completa el análisis, Amazon SNS envía notificaciones a los usuarios suscritos. Para obtener más información, consulte las notificaciones de Amazon SNS.

Configuración de detección predeterminada de Amazon Rekognition
Como usarlo
El procedimiento para implementar esta arquitectura en AWS consta de los siguientes pasos. Para obtener instrucciones detalladas, siga los enlaces de cada paso.
Inicie la plantilla de AWS CloudFormation en su cuenta de AWS.
Ingrese valores para los parámetros requeridos: Nombre de pila y Dirección de correo electrónico .
Revise los otros parámetros de la plantilla y ajústelos si es necesario.
Paso 2. Cargue un archivo de video o imagen
Cargue un archivo mediante la interfaz web para comenzar los flujos de trabajo de ingesta y análisis.
Paso 3. Crea tu colección de rostros
Indexe rostros para crear su colección de rostros y mejorar los resultados del análisis de rostros.
Encuentra el momento específico que buscas.
Paso 5: Personalización de la configuración de AI/ML
Configure los servicios de IA/ML que desee utilizar en su análisis.
Paso 6: Visualización de estadísticas
Un resumen de todo el contenido de su colección.
Arquitectura de la solución Media2Cloud

La plantilla de AWS CloudFormation implementa la siguiente infraestructura:
1. Un grupo de usuarios de Amazon Cognito para proporcionar un directorio de usuarios.
2. Un punto de conexión de la API de RESTful de Amazon API Gateway, que está configurado para utilizar la autenticación de AWS IAM.
3. Una distribución de Amazon CloudFront que aloja los artefactos de las aplicaciones web, como los archivos JavaScript minimizados y los gráficos almacenados en el bucket web.
4. Una máquina de estados principales de AWS Step Functions que sirve como punto de entrada a los flujos de trabajo de ingesta y análisis del backend de la solución.
5. Una máquina de subestados de ingesta de AWS Step Functions que orquesta el proceso de ingesta por tipo de archivo multimedia y genera proxies para los elementos multimedia ingeridos. Utiliza AWS Elemental MediaConvert para los archivos de video y audio, y herramientas de código abierto para los archivos de imágenes y documentos.
6. Una máquina de subestados de análisis de AWS Step Functions que es responsable del proceso de análisis. Consta de AWS Step Functions que ejecuta trabajos de análisis con Amazon Rekognition, Amazon Transcribe, Amazon Comprehend y Amazon Textract.
7. Tablas de Amazon DynamoDB para almacenar los artefactos generados durante los procesos de ingesta y análisis, como el estado general, los punteros en los que se almacenan los archivos intermedios y los tokens de ejecución de la máquina de estado.
8. Un clúster de Amazon OpenSearch Service que almacena atributos de ingesta y metadatos de machine learning, y facilita las necesidades de búsqueda y detección de los clientes.
9. Cuatro buckets de Amazon Simple Storage Service (Amazon S3) para almacenar el contenido cargado, los proxies de archivos que la solución genera durante la ingesta, los artefactos estáticos de las aplicaciones web y los registros de acceso a los servicios utilizados. 10. Reglas de eventos de Amazon CloudWatch que se registran cuando las tareas específicas sufren cambios de estado.
11. Amazon EventBridge utilizado por un sistema interno de administración de colas en el que el sistema de trabajos pendientes notifica a los flujos de trabajo (máquinas de estado) cuando se ha procesado una solicitud de IA o ML en cola.
12. Un tema de AWS IoT Core que permite que los flujos de trabajo de ingesta y análisis se comuniquen con la aplicación web frontend de manera asíncrona mediante la mensajería MQTT de publicación o suscripción. 13. Temas de Amazon Simple Notification Service (Amazon SNS) para permitir a Amazon Rekognition publicar el estado del trabajo en el flujo de trabajo de análisis de video y para admitir la integración personalizada con el sistema de los clientes.
Y vos, ¿te animás a probarlo?
Leé más en camonlabs.com/blog