5 de septiembre de 2024

Comparación de la transcripción de audio en la nube vs en dispositivo: ¿Cuál es mejor?

En iOS 18, las aplicaciones Notas y Grabaciones de Voz de Apple obtienen una nueva función de transcripción de audio. Aquí tienes todo lo que necesitas saber sobre los diferentes tipos de transcripción de audio, cómo se comparan entre sí y qué aporta la implementación de Apple.

Las últimas versiones de los sistemas operativos de Apple permiten a los usuarios transcribir audio directamente dentro de Notas y Grabaciones de Voz, en tiempo real y sin necesidad de conexión a internet. iOS 18.1, iPadOS 18.1 y macOS Sequoia 15.1 también introducen soporte para Apple Intelligence, lo que significa que los usuarios podrán resumir y editar transcripciones a través de la inteligencia artificial, aunque solo en dispositivos más recientes.

Para explicar mejor la importancia de estas nuevas funciones, así como su impacto potencial en el mercado de aplicaciones de terceros, es importante tener un entendimiento básico de la transcripción de audio en su conjunto, y los diferentes tipos de procesamiento de voz a texto que existen.

El proceso de convertir el habla grabada en texto escrito se conoce como transcripción de audio. Se utiliza comúnmente en una variedad de campos e industrias y siempre ha sido una herramienta esencial para múltiples tipos de usuarios, incluidos académicos, profesionales de negocios, periodistas y estudiantes.

La transcripción de audio facilita la búsqueda de información clave contenida en una grabación de audio. En lugar de escuchar toda una grabación de un discurso o entrevista, por ejemplo, un periodista puede buscar fácilmente a través de una transcripción y encontrar los detalles necesarios. La toma de notas de propósito general también se facilita significativamente con la transcripción de audio.

También se utiliza a menudo como una herramienta de accesibilidad, ya que la transcripción ayuda a los usuarios con discapacidades auditivas u otras discapacidades. Los estudiantes que tienen dificultades para entender a su profesor o seguir durante las clases pueden beneficiarse especialmente más de la transcripción de audio en tiempo real, en lugar del procesamiento posterior del audio grabado.

En general, existen dos enfoques posibles para la transcripción de audio: en el dispositivo y basada en la nube. Cada uno tiene sus propias ventajas y desventajas que los usuarios deben tener en cuenta al decidir qué aplicación es la adecuada para ellos.

Con la transcripción de audio en el dispositivo, el audio se procesa localmente en el hardware del usuario y se convierte en texto sin conectar a un servidor externo. Esto preserva en última instancia la privacidad del usuario, ya que las grabaciones y transcripciones no se envían a ningún lugar.

La transcripción de audio basada en la nube funciona enviando archivos de audio a través de internet a servidores especializados con software de transcripción. Una vez que un archivo ha sido transcrito, la salida de texto se envía de vuelta al usuario final. Este tipo de transcripción es a menudo menos intensiva en CPU y está disponible en una amplia gama de dispositivos.

Cuando se trata de transcripción de audio, los usuarios tienen múltiples aplicaciones y servicios para elegir. Algunas aplicaciones utilizan el procesamiento de audio en el dispositivo, mientras que otras son servicios basados en la web que transcriben audio de forma remota, a través del uso de servidores externos. En última instancia, hay pros y contras para cada enfoque, así como casos de uso únicos para la transcripción en el dispositivo y el procesamiento basado en la nube.

Transcripción sin conexión — Para qué se utiliza y por qué

La transcripción sin conexión es ideal para grabaciones de audio que contienen información altamente sensible. En periodismo, por ejemplo, esto ayudaría a asegurar la información personal de las personas que hablan con la prensa sobre asuntos confidenciales.

Transcribir audio en el dispositivo significa que no hay efectivamente ninguna posibilidad de transmitir accidentalmente información sensible durante el proceso de transcripción. En teoría, ningún tercero no autorizado puede escuchar estas grabaciones o ver los archivos transcritos, lo que sigue siendo una posibilidad con los servicios de transcripción que requieren una conexión a internet activa.

Las grabaciones de reuniones de negocios también es probable que contengan información sensible como planes corporativos, marketing, branding y estrategias de inversión, detalles de desarrollo de productos, y así sucesivamente. Esto hace que la transcripción en el dispositivo sea la mejor opción para este tipo de grabaciones.

Las grabaciones con información médica, como sesiones de terapia o notas médicas, obviamente contienen información privada y a menudo sensible. El procesamiento en el dispositivo garantizaría la privacidad de todas las personas involucradas y sería especialmente útil para figuras públicas y celebridades.

Además de esto, la transcripción de audio sin conexión también se puede utilizar para llevar un diario. Cuando se visita áreas remotas o rurales sin conectividad a internet, solo una herramienta de transcripción en el dispositivo puede procesar el audio. Dado que no hay requisitos relacionados con la red, la toma de notas de propósito general también se facilita con la transcripción de audio sin conexión.

La importancia de la transcripción de audio en tiempo real, por qué las aplicaciones basadas en la nube a veces son útiles

Los servicios de transcripción de audio solo en línea, como Otter.ai, pueden procesar audio en tiempo real. Esto significa que el servicio puede transcribir reuniones, llamadas de conferencia, conferencias, transmisiones en vivo y podcasts mientras ocurren. Otter.ai es un servicio basado en la nube que puede transcribir reuniones en tiempo real e incluso identificar a los oradores.

En periodismo, la transcripción en tiempo real es especialmente útil para eventos en vivo. Esto puede incluir conferencias de prensa, ceremonias de premios, discursos, anuncios de empresas y funcionarios gubernamentales, eventos de lanzamiento de productos, llamadas de ganancias trimestrales relacionadas con empresas selectas, y mucho más.

Durante eventos como estos, a un periodista se le puede encargar escribir una historia basada en una frase clave de un evento, una que contenga una estadística importante o un punto de datos. Aquí es donde la transcripción en tiempo real es absolutamente necesaria, ya que el tiempo es crucial.

Otros tipos de usuarios, como estudiantes, pueden necesitar transcripción en tiempo real para tomar notas de manera más eficiente durante las conferencias. Al ver palabras individuales y frases clave transcritas de inmediato, es más fácil identificar conceptos centrales, ideas o frases de interés dentro de una conferencia.

Muchas aplicaciones de transcripción sin conexión no pueden proporcionar transcripciones de audio en tiempo real. Por otro lado, iOS 18 de Apple, aunque aún está en beta, introduce la transcripción en tiempo real sin conexión en la aplicación integrada Notas. Esto lo convierte en un competidor potencial para ciertos servicios de transcripción de audio basados en la nube.

La transcripción de audio sin conexión de Apple está disponible en diferentes plataformas, aunque obviamente solo en sistemas de marca Apple y solo en el software más reciente de la compañía.

Los productos basados en la web como Otter.ai están disponibles en varias plataformas. Esto significa que los usuarios pueden transcribir audio en tiempo real en cualquier dispositivo con un navegador web moderno, ya sea un teléfono, una computadora portátil o una tableta.

Muchas aplicaciones de transcripción sin conexión de terceros, como las basadas en Whisper de OpenAI, están limitadas a una plataforma singular. En algunos casos, las aplicaciones son exclusivas para Mac, mientras que otras están disponibles exclusivamente en Windows o iPhone.

Los modelos Whisper de OpenAI y su uso para la transcripción en el dispositivo

La reciente popularidad de la inteligencia artificial significa que hay un número cada vez mayor de aplicaciones y modelos de IA generativa que pueden procesar audio, video, imágenes y archivos de texto. Algunos modelos de IA se utilizan para la transcripción de audio en el dispositivo, como es el caso de Whisper de OpenAI.

El modelo Whisper de OpenAI fue introducido en 2022 y es de código abierto. Fuente de imagen: OpenAI.com Whisper, lanzado en 2022, es un software de transcripción alimentado por IA particularmente popular. Whisper es de código abierto, lo que significa que sus modelos de IA están disponibles de forma gratuita en la página de GitHub de OpenAI para que cualquiera los descargue y use.

El software fue entrenado en más de 680,000 horas de audio y cuenta con múltiples modelos de IA que producen transcripciones de precisión variable y a diferentes velocidades. Whisper también se puede utilizar para la traducción, ya que admite 99 idiomas diferentes.

Los modelos de IA de Whisper hacen posible transcribir audio completamente en el dispositivo, sin necesidad de una conexión a internet activa. Esto se traduce en un costo de espacio de almacenamiento, ya que los modelos de IA de Whisper pueden tener hasta 2GB de tamaño, lo cual es bastante para una computadora con una capacidad de almacenamiento más baja, como 256GB.

Sin embargo, vale la pena señalar que instalar Whisper directamente desde la página de GitHub de OpenAI no es tan fácil como instalar cualquier aplicación de macOS tipo GUI. Algunos usuarios pueden encontrar la tarea desalentadora, debido al uso de comandos de terminal y similares, aunque por esa misma razón, los desarrolladores han estado incorporando Whisper en sus aplicaciones.

Por qué las aplicaciones de terceros utilizan Whisper de OpenAI, cómo obtienen ganancias y qué aportan

Muchas compañías han desarrollado aplicaciones de GUI para macOS e iOS, que hacen uso de Whisper de OpenAI, como una forma de crear una experiencia más amigable para el usuario. Esto incluye productos como MacWhisper y Whisper Transcription, e incluso Whisper se ha introducido en aplicaciones existentes relacionadas con el audio, como el Audio Hijack de $77.

Muchas de estas aplicaciones alimentadas por Whisper de OpenAI ofrecen funcionalidades básicas de transcripción de forma gratuita, al proporcionar acceso a modelos de IA de Whisper más pequeños. Estos modelos pueden proporcionar transcripciones rápidas, pero pueden no ser tan precisos como los creados utilizando los modelos de IA más grandes y complejos.

En general, este tipo de aplicaciones obtienen ganancias cobrando por el uso de modelos de IA más grandes…