Diario de IA: La función de transcripción de llamadas y resumen es un trabajo en progreso, pero tiene un gran potencial.

Diario de IA: La función de transcripción de llamadas y resumen es un trabajo en progreso, pero tiene un gran potencial.

Grabando una llamada

Cuando realizas o recibes una llamada, hay un nuevo botón en la parte superior izquierda de la pantalla. Al tocar este botón, aparece una alerta que informa a todas las partes de que la llamada está siendo grabada.

Después de una cuenta regresiva de tres segundos, se hace un anuncio de voz:

Esta llamada será grabada

Esto es un requisito legal en algunos estados de EE. UU. y en muchos países de todo el mundo.

Mientras comienza la grabación, aparece un banner que te invita a tomar notas sobre la llamada. Después de eso, el banner desaparece y solo te deja con una forma de onda y un botón para finalizar la grabación.

La transcripción

Una vez que la llamada ha finalizado, y ya sea que aceptes la opción de tomar notas o no, se abre una nueva nota con la grabación de audio incrustada en ella.

Luego puedes transcribir esto, lo que para una llamada de cinco minutos solo tomó unos segundos.

También puedes reproducir la grabación y obtener un resaltado sincronizado con el tiempo al estilo de Apple Music de la transcripción. O puedes hacerlo al revés: tocar cualquier parte de la transcripción y reproducirá esa parte de la grabación.

Como ya podrás adivinar por el ejemplo anterior, el rendimiento actual de la transcripción es… eh… no muy bueno.

El «Sí» de Greg se convirtió en «Claro», y mi pregunta «¿Cuál es tu política normal sobre las betas?» fue reinterpretada de manera creativa como «¿Cuál es tu normal Palabra clave?».

Las cosas no mejoraron a partir de ahí. Había muchas sustituciones muy extrañas y los saltos de línea eran bastante aleatorios. Por ejemplo:

Greg GladwellPensando, supongo, porque
Greg GladwellEs
Greg GladwellUna de las cosas más geniales durante un tiempo y será, sin duda, muy, muy útil
Greg GladwellEn la vida cotidiana [una deformación de «en la vida cotidiana»]
Greg Gladwell

En este punto, simplemente perdió la mitad de una oración.

Algo que también puedes ver arriba es el formato aleatorio, como ese espacio antes de la coma.

Resúmenes

Tan pronto como se completa la transcripción, también puedes tocarla para obtener un resumen. Aquí está lo que produjo para nuestra conversación sobre la beta de Apple Intelligence:

Dejando de lado la parte de la «Palabra clave», no es terrible, simplemente muy, muy genérico. No estoy seguro de cuán útil sería tener un resumen tan general para la mayoría de las personas, aunque supongo que si eres abogado u otra persona con cientos o miles de transcripciones, tal vez indexarlas te ayudaría a encontrar la correcta.

Principalmente, entonces, estoy emocionado por el futuro

Este es un modo muy conveniente de grabar llamadas, así que lo usaré en ocasiones raras que necesite hacerlo, pero las capacidades de transcripción actuales no son realmente útiles.

Pero estoy muy emocionado por el potencial de esto una vez que funcione bien. Por ejemplo, escribí hace un tiempo sobre cómo una transcripción de MacWhisper salvó el día cuando tenía una pista de audio inutilizable para un video, pero inicialmente no me di cuenta de esto, lo que hizo que fuera mucho más difícil sincronizarlo con mi grabación de respaldo.

Al pasar el archivo de audio por MacWhisper, 90 segundos después tenía una transcripción completa y con marcas de tiempo. Luego pude buscar una frase utilizada en la edición y saltar inmediatamente a esa parte del archivo de audio para sustituirla por la original. Unos pocos ajustes a nivel de fotograma hicieron que el video y el audio estuvieran sincronizados correctamente. Todo el proceso tomó solo unos minutos.

Absolutamente veo que uso un iPhone como dispositivo de grabación de audio adicional durante las entrevistas, lo que facilita mucho encontrar citas y escucharlas nuevamente.

Para entrevistas telefónicas en particular, la conveniencia de tener inmediatamente una transcripción sincronizada con el tiempo será fantástica.

Entonces… aún no es utilizable, pero dado el rendimiento de otras herramientas de transcripción disponibles, sospecho que no pasará mucho tiempo hasta que lo sea.



Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *