Oracle plantea que las organizaciones solo se dan cuenta de una fracción del enorme potencial de transformación de los datos porque los equipos no tienen fácil acceso a los mismos ni a las herramientas adecuadas para construir e implementar modelos efectivos de aprendizaje autónomo. El resultado es que los modelos tardan demasiado en desarrollarse, no siempre cumplen con los requisitos empresariales de precisión y robustez y con demasiada frecuencia nunca llegan a producción. Y es en base a esto que desarrolla Oracle Cloud Data Science.
Greg Pavlik, vicepresidente senior de Desarrollo de Productos, Oracle Data e IA Servicios explica: ‘Los modelos efectivos de aprendizaje autónomo son la base de proyectos exitosos de ciencia de datos, pero el volumen y la variedad de datos que enfrentan las empresas pueden detener estas iniciativas antes de que despeguen. Con Oracle Cloud Infrastructure Data Science, estamos mejorando la productividad de los científicos de datos individuales al automatizar todo su flujo de trabajo y agregando un fuerte apoyo de equipo para ayudar a garantizar que estos proyectos de entreguen un valor real a las empresas’.
Diseñado para equipos de ciencia de datos y científicos.
Oracle Cloud Infrastructure Data Science incluye flujo de trabajo automatizado de ciencia de datos, ahorrando tiempo y reduciendo errores con las siguientes capacidades:
• La selección y el ajuste automático de algoritmos de AutoML automatizan el proceso de ejecutar pruebas contra múltiples algoritmos y configuraciones de hiperparámetros. Comprueba la precisión de los resultados y confirma que se selecciona el modelo y la configuración óptimos para su uso. Esto ahorra un tiempo significativo para los científicos de datos y, lo que es más importante, está diseñado para permitir que cada científico de datos obtenga los mismos resultados que los profesionales más experimentados.
• La selección automática de características predictivas simplifica la ingeniería de características al identificar automáticamente las características predictivas clave de conjuntos de datos más grandes.
• La evaluación del modelo genera un conjunto integral de métricas de evaluación y visualizaciones adecuadas para medir el rendimiento del modelo frente a nuevos datos y puede clasificar los modelos a lo largo del tiempo para permitir un comportamiento óptimo en la producción. La evaluación del modelo va más allá del rendimiento bruto para tener en cuenta el comportamiento de referencia esperado y utiliza un modelo de costos para que los diferentes impactos de falsos positivos y falsos negativos se puedan incorporar por completo.
• Explicación del modelo: Oracle Cloud Infrastructure Data Science proporciona una explicación automatizada de la ponderación relativa y la importancia de los factores que intervienen en la generación de una predicción. La herramienta ofrece la primera implementación comercial de la explicación independiente del modelo. Con un modelo de detección de fraude, por ejemplo, un científico de datos puede explicar qué factores son los principales impulsores del fraude para que la empresa pueda modificar procesos o implementar salvaguardas.
Obtener modelos efectivos de aprendizaje autónomo con éxito en la producción necesita más que solo personas dedicadas. Requiere equipos de científicos de datos que trabajen juntos en colaboración. Oracle Cloud Infrastructure Data Science ofrece potentes capacidades de equipo que incluyen:
• Los proyectos compartidos ayudan a los usuarios a organizar, habilitar el control de versiones y compartir de manera confiable el trabajo de un equipo, incluidas las sesiones de datos y portátiles.
• Los catálogos de modelos permiten a los miembros del equipo compartir de manera confiable modelos ya construidos y los artefactos necesarios para modificarlos y desplegarlos.
• Las políticas de seguridad basadas en equipos permiten a los usuarios controlar el acceso a modelos, códigos y datos, que están completamente integrados con Oracle Cloud Infrastructure Identity and Access Management.
• Las funcionalidades de reproducibilidad y auditabilidad permiten a la empresa realizar un seguimiento de todos los activos relevantes, de modo que todos los modelos se puedan reproducir y auditar, incluso si los miembros del equipo se van.
De esta manera las organizaciones pueden acelerar la implementación exitosa del modelo y producir resultados y desempeño de nivel empresarial para el análisis predictivo para generar resultados comerciales positivos.
Servicios integrales de datos y aprendizaje autónomo
Oracle Cloud Data Science Platform incluye siete nuevos servicios que brindan una experiencia integral diseñada para acelerar y mejorar los resultados de la ciencia de datos:
• Oracle Cloud Infrastructure Data Science: permite a los usuarios crear, entrenar y administrar nuevos modelos de aprendizaje autónomo en Oracle Cloud usando Python y otras herramientas y bibliotecas de código abierto, incluidas TensorFlow, Keras y Jupyter.
• Nuevas y potentes capacidades de aprendizaje autónomo en la base de datos autónoma de Oracle: los algoritmos de aprendizaje autónomo están estrechamente integrados en la base de datos autónoma de Oracle con un nuevo soporte para Python y el aprendizaje autónomo automatizado. La próxima integración con Oracle Cloud Infrastructure Data Science permitirá a los científicos de datos desarrollar modelos utilizando algoritmos de fuente abierta y escalables en la base de datos. Excepcionalmente, llevar algoritmos a los datos en la base de datos Oracle acelera el tiempo de resultados al reducir la preparación y el movimiento de datos.
• Oracle Cloud Infrastructure Data Catalog: permite a los usuarios descubrir, encontrar, organizar, enriquecer y rastrear activos de datos en Oracle Cloud. Oracle Cloud Infrastructure Data Catalog tiene un glosario empresarial incorporado que facilita la conservación y el descubrimiento de los datos correctos y confiables.
• Oracle Big Data Service: ofrece una implementación completa de Cloudera Hadoop, con una administración dramáticamente más simple que otras ofertas de Hadoop, incluyendo solo un clic para hacer que un clúster esté altamente disponible e implementar seguridad. Oracle Big Data Service también incluye aprendizaje autónomo para Spark, lo que permite a las organizaciones ejecutar el aprendizaje autónomo de Spark en memoria con un solo producto y con un mínimo movimiento de datos.
• Oracle Cloud SQL: permite consultas SQL sobre datos en HDFS, Hive, Kafka, NoSQL y Object Storage. Solo CloudSQL permite que cualquier usuario, aplicación o herramienta de análisis que pueda comunicarse con las bases de datos de Oracle trabaje de manera transparente con datos en otros almacenes de datos, con la ventaja del procesamiento de reducción de escala para minimizar el movimiento de datos.
• Oracle Cloud Infrastructure Data Flow: un servicio de Big Data totalmente administrado que permite a los usuarios ejecutar aplicaciones Apache Spark sin infraestructura para implementar o administrar. Permite a las empresas entregar aplicaciones de Big Data y AI más rápido. A diferencia de los servicios competitivos de Hadoop y Spark, Oracle Cloud Infrastructure Data Flow incluye una sola ventana para rastrear todos los trabajos de Spark, lo que facilita la identificación de tareas costosas o la resolución de problemas.
• Oracle Cloud Infrastructure Virtual Machines for Data Science: entornos preconfigurados basados en GPU con IDE, portátiles y marcos comunes que pueden estar en funcionamiento en menos de 15 minutos.