[:es]
Mientras trabajas con aplicaciones web y móviles utilizando arquitecturas backend serverless, una de las consideraciones más importantes a tener en cuenta es que necesitarás procesar, almacenar y gestionar los datos recolectados utilizando estas soluciones.
Nos gustaría compartir nuestro enfoque sobre este tema utilizando AWS SageMaker Pipelines. Hemos comenzado con datos públicos tomados de Kaggle para diseñar e implementar nuestros modelos en entornos de desarrollo y producción. Fue un desafío gestionar múltiples entornos, pero también fue interesante proporcionar iteraciones rápidas de nuestros modelos.
Probablemente estás aquí porque ya estás implementando un modelo de aprendizaje automático o simplemente estás planeando hacerlo…
[:en]
While working with web and mobile applications using backend serverless architectures, one of the most important considerations to keep in mind is that you will need to process, store and manage the data collected using these solutions.
We would like to share our approach on this topic using AWS SageMaker Pipelines. We have started with public data taken from kaggle to design and deploy our models in development and production environments. It was challenging to manage multiple environments as it was interesting to provide quick iterations of our models.
Probably you are here because you are already implementing a ML model or you are just planning to do it.
[:]
[:es]
[:en]
[:es]Decidimos optar por MLOPS, que es definido por el Grupo de Interés Especial (SIG) de MLOps como «la extensión de la metodología DevOps para incluir los activos de Aprendizaje Automático (Machine Learning) y Ciencia de Datos como ciudadanos de primera clase dentro de la ecología de DevOps».
A través de esta serie de artículos, brindaremos más información sobre cómo implementar y poner en práctica MLOPS utilizando las herramientas proporcionadas por SageMaker, porque AWS ha realizado un gran esfuerzo para desarrollar y documentar una arquitectura completa centrada en las mejores prácticas de ML.
[:en]
We decided to go with MLOPS which is defined by the MLOps SIG as “the extension of the DevOps methodology to include Machine Learning and Data Science assets as first-class citizens within the DevOps ecology”
Through this series of articles we will be providing more information about how to deploy and put in practice MLOPS using the tools provided by SageMaker because AWS has made a big effort to develop and document a complete architecture focused on ML best practices.
[:]
[:es]El término «Pipeline de Aprendizaje Automático» se refiere a un conjunto de operaciones que se ejecutan para producir nuevos modelos.
Ingeniería de características: (tomando como referencia este impresionante artículo sobre el tema «Ingeniería de características, herramientas e técnicas importantes para el aprendizaje automático«) Este es un tema fundamental en el Aprendizaje Automático y se define como el proceso de seleccionar, manipular y transformar datos en características que se pueden utilizar para que nuestro modelo prediga valores o aplique clasificación. Este proceso es pasado por alto o no tan importante para algunos desarrolladores, pero desde nuestro punto de vista, es el paso MÁS IMPORTANTE en el proceso porque:
Entrenamiento del modelo: proporciona datos de entrenamiento a un algoritmo de Aprendizaje Automático. Cuando el proceso está completo, tendrás un artefacto de modelo comúnmente denominado modelo de Aprendizaje Automático.
Evaluación del modelo: es muy importante evaluar el modelo con los datos disponibles antes de intentar realizar una predicción real. Es importante verificar algunas métricas como la precisión y la exactitud para determinar si el modelo de Aprendizaje Automático funciona bien.
Sobreajuste (Overfitting): Intentarás crear el mejor modelo posible con los datos disponibles, y tu modelo puede funcionar perfectamente, pero no ser adecuado para otra cosa.
Nota: Estos conceptos proporcionan un punto de partida para comprender las ideas desarrolladas, y probablemente encontrarás más en todos los artículos de esta serie.[:en]
The term Machine Learning Pipeline comes in as a set of operations which are executed to produce new models.
Feature engineering: (going to take as reference this astonishing article about the topic “Feature engineering, importance tools and techniques for machine learning”) This is a fundamental topic in ML and it’s defined as the process of selecting, manipulating and transforming raw data into features that can be used for our model to predict values or apply classification. This process is overlooked or not so important for some developers but in our point of view is the MOST IMPORTANT step in the process because:
Model training: provide training data to a ML algorithm. When the process is complete you are going to have a model artifact commonly denominated as ML model.
Model evaluation: It is very important to evaluate the model with the data you have available before you try to do a real prediction. It is important to check some metrics like accuracy and precision to determine if the ML model is doing well.
Overfitting: You will try to create the best model possible with the data you have available and your model could perform perfectly but when it is unsuitable for anything else.
Note: These concepts provide a starting point to understand the ideas developed and probably you are going to find more in all the articles of this series.[:]
[:es]
[:en]
[:]
[:es]
Esto es todo,
Me gustaría hacer un reconocimiento especial a mi compañero de trabajo, Santiago Vásquez, quien ha estado trabajando conmigo en este proyecto. Juntos, estamos tratando de proporcionar algo útil para la comunidad y la industria de IA en Colombia.
Gracias a TBBC, nuestra empresa, por brindar el espacio para que la innovación florezca.
[:en]
So this is all,
I would like to give a special recognition to my co-worker Santiago Vasquez who has been working with me on this project, together we are trying to provide something useful for the community and the Colombian AI industry.
Thanks to
01
Jun01
Jun
Leave A Comment