Reconocimiento de voz, texto e imágenes, lo nuevo de Amazon

Tres nuevos servicios de inteligencia artificial para revolucionar el mercado

Los servicios de inteligencia artificial cada vez están más centrados en comprender el lenguaje natural, entender el texto dentro de una conversación del día a día, poder mantener conversaciones usando voz o texto sin problemas de entendimiento e incluso aprender a reconocer caras, objetos y escenas.

Precisamente estos son algunos de los objetivos de los nuevos lanzamientos de Amazon Web Services (AWS), la rama de cloud computing de Amazon, en cuanto a inteligencia artificial.

Conversaciones fluidas

Que las máquinas comprendan el lenguaje del ser humano se ha convertido en todo un reto para Amazon. Por ello, Alexa, el asistente virtual de la compañía, ha ido evolucionando con importantes mejoras para alcanzar un objetivo: el lenguaje más natural para mantener una conversación fluida entre máquinas y personas. Para lograrlo, AWS ha presentado en el marco del evento 'Amazon Web Services re:invent', celebrado en Las Vegas esta semana, LEX, una nueva tecnología que permitirá a Alexa comprender y mantener una conversación sin dificultades.

Para preguntar un número de teléfono podemos decir: ¿cuál es tu móvil? ¿me das tu número? o ¿ me pasas tu número de teléfono?, entre otras muchas fórmulas. El objetivo de LEX es, mediante la clasificación de palabras claves, conseguir que Alexa entienda lo que el usuario quiere decir sea de la forma que sea. La comprensión del lenguaje permite a Alexa desarrollar una conversación para solucionar la tarea que le ha mandado el usuario e la forma más rápida posible.

En el caso de pedir un vuelo, la orden puede ser: Alexa, quiero volar a Londres este viernes. En este caso, Alexa completará la orden al preguntar si lo quiere por la mañana o por la tarde y ofrecerá el resultado en cuestión de segundos con el precio más bajo encontrado.

"Con este servicio, las compañías pueden construir aplicaciones web con chats de voz, ofrecer bots en sus servicios de relación con el usuario o desarrollar aplicaciones basados en el uso de la voz", explica Raju Gulabani, VP, Databases, Analytics, and AI de AWS.

El discurso inteligente

Tan importante es entender bien el lenguaje oral como escrito. Para ello, AWS ha presentado Amazon Polly, una nueva tecnología para entender el texto escrito de forma natural al analizar el contexto. Por ejemplo, si escribes ¿cuándo juega el Madrid?, Polly entiende que se trata de un equipo de fútbol y ofrece mediante voz los resultados a la cuestión.

Esta opción es muy útil para desarrolladores que pueden crear aplicaciones en las que se envía un texto a Amazon Polly y el sitema devulde de inmediato los resultados en 47 posibles tipos de voces y en 24 idiomas.

Reconocimiento de imágenes

Para completar estos servicios, AWS también ha presentado Amazon Rekognition. Esta tecnología permite reconocer en una fotografía los rostros de las personas, el paisaje y los objetos. Por ejemplo, en una imagen en la que aparece una chica dentro de un coche, Rekognition es capaz de distinguir si se trata de una mujer, si está sonriendo o si lleva gafas de sol. Además, sabe que está en un vehículo y que se localiza en una carretera por la mañana.

Según Amazon Web Services, esta función también puede ser muy útil para algunas compañías y desarrolladores a la hora, por ejemplo, de cuestiones de seguridad y el reconocimiento facial.

Igualmente, el uso de las tres tecnologías unidas puede dar resultados muy valiosos. Por ejemplo, si en una búsqueda se quieren encontrar lugares para ir de vacaciones en las montañas, uniendo el reconocimiento de voz o de texto y de imágenes, Amazon es capaz de ofrecer como resultado fotografías de lugares que se ajustan a la pregunta y a las preferencias del usuario para pasar sus vacaciones.


Fuente: Expansión