Duración: 1 enero 2019 hasta 31 diciembre 2021
Financiado por: referencia RTI2018-096883-R-C43

El objetivo de este subproyecto es desarrollar las herramientas necesarias para la automática comprensión y categorización del etiquetado de los alimentos por parte de los consumidores. Para ello, a partir de imágenes capturadas desde un dispositivo móvil, se pretende realizar una transcripción literal del etiquetado de los productos alimenticios. Esta transcripción literal podrá ser utilizada por otros integrantes del proyecto coordinado para valorar la adecuación de este producto a un perfil de usuario dado. Para tal fin se requiere resolver una serie de tareas y objetivos intermedios. Se propone emplear aprendizaje basado en redes neuronales dado que suponen en la actualidad el estado del arte en la consecución de las tareas intermedias mencionadas. Dichas tareas son, por un lado, la correcta localización del etiquetado en la imagen así como la transcripción literal del mismo. Ambas tareas, sin embargo, requieren de una previa adquisición de una base de datos de ejemplos de diferentes tipos de etiquetados presentes en (miles) de imágenes de productos. Esta tareas de adquisición supone ya un importante esfuerzo dado que no sólo nos referimos a la adquisición propiamente dicha de la imagen sino también al etiquetado de la misma. Este etiquetado se debe realizar a dos niveles, primero la caja mínima de inclusión de la información nutricional (detección) y segundo la transcripción literal de la información nutricional presente.

Este etiquetado supervisado supone un coste importante de supervisión humana y supone un acercamiento clásico al problema de aprendizaje automático, por ello, y en aras de no requerir este tipo de etiquetado supervisado, proponemos otro tipo de acercamiento más directo al problema. En este caso, se propone investigar y desarrollar una herramienta también basada en técnicas de aprendizaje profundo donde a partir de la imagen y dado un perfil de usuario concreto, el sistema emita una señal de alarma (traffic light) informando acerca de la adecuación de dicho producto a ese usuario en particular. Este tipo de acercamiento al problema requiere un etiquetado mucho más débil que el postulado anteriormente, dado que no es necesario detectar ni transcribir la información nutricional sino simplemente informar (de manera débil) al sistema acerca de la adecuación del producto al usuario en cuestión.

Ambas propuestas serán puestas a disposición del resto de participantes del proyecto en forma de una librería (API) que dada una imagen detecte y transcriba la información nutricional, en el primer caso, o que dado un par, imagen-usuario, devuelva el nivel de adecuación del producto que aparece en la imagen a dicho usuario. Finalmente, proponemos evaluar la viabilidad de trasladar las tecnologías subyacentes en ambas propuestas a ser implementadas en dispositivos móviles. Este estudio de viabilidad supondrá analizar de entre las diferentes tipologías y técnicas de redes neuronales empleadas cuál de ellas son adecuadas y cuales de ellas deberían ser modificadas para poder ser incluidas en dichos dispositivos con recursos limitados de almacenamiento y cómputo. Un ejemplo es el empleo de MobileNets para la parte relacionada con procesamiento de imagen, entre otras.

Miembros