Gemini ya permite subir archivos de audio: así funciona la nueva función de la IA

Gemini ahora soporta la carga de archivos de audio

Google anunció oficialmente que los usuarios de Gemini ya pueden subir archivos de audio tanto en la aplicación móvil como en la versión web. Se trata de una de las funciones más solicitadas desde el lanzamiento del modelo, ya que amplía sus capacidades de análisis más allá de texto e imágenes.

Esta novedad llega junto a una serie de mejoras que consolidan a Gemini como un ecosistema más versátil, capaz de procesar múltiples formatos y ofrecer respuestas adaptadas al contenido de audio cargado por el usuario.

Cómo funciona la carga de audio en Gemini

La función está disponible tanto en dispositivos móviles como en escritorio. El usuario puede arrastrar o seleccionar un archivo de audio compatible —por ejemplo, en formatos comunes como .mp3, .wav o .m4a— y Gemini procesará automáticamente el contenido.

Según la documentación de Google, el modelo puede transcribir, resumir o analizar el audio para responder a preguntas concretas sobre el archivo. Esto convierte la herramienta en una opción práctica para estudiantes, periodistas y profesionales que trabajan con grabaciones.

Usos prácticos y limitaciones actuales

Entre los escenarios más destacados, Gemini permite:

  • Transcribir entrevistas o clases grabadas.
  • Generar resúmenes de reuniones o conferencias.
  • Analizar patrones de voz o contenido específico en grabaciones.

Sin embargo, aún existen limitaciones. El tamaño máximo de los archivos está restringido, y el sistema no está diseñado para procesamiento de audio en tiempo real. Además, la precisión puede variar dependiendo de la calidad de la grabación.

Límites según el tipo de cuenta

  • Usuarios gratis: hasta 10 minutos de audio por archivo.
  • Planes Pro y Ultra: hasta 3 horas de audio en una sola carga.

La posibilidad de subir archivos de audio a Gemini marca un paso importante en la evolución del modelo. Google responde así a una demanda recurrente de los usuarios y abre nuevas posibilidades en educación, productividad y análisis de contenido grabado, aunque con limitaciones que seguramente se pulirán en futuras actualizaciones.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *