Co-fundador de Happy Scribe

Marc Assens

89 idiomas

Dos jóvenes universitarios crean un servicio para automatizar la transcripción


Happy Scribe transcribe formatos de audio a texto con una aplicación web de calidad y a precio reducido.

Lunes, 02 de Octubre de 2017
Marc Assens, acompañado de su socio y amigo André Bastié, nos presentan hoy su empresa, nacida a partir de un servicio de transcripción electrónica y automática a partir de Internet. Nos cuentan que recientemente han terminado sus estudios, pero que todavía se sienten con ganas de más.

"Escribimos un pequeño programa que era capaz de hacer transcripciones muy básicas. Lo probamos con los apuntes de André y funcionó bastante bien"
 
"Los algoritmos que efectúan reconocimiento de voz han avanzado mucho en los últimos años y meses"
 
"En un día tuvimos cobertura de prensa norteamericana y en una semana más, millares de peticiones de información"
 
"Lo realmente increíble es que la tasa de conversión cuando el servicio era gratuito era de un 20% y cuando se lo pusimos, la tasa fue del 10%. O sea, que seguía habiendo gente que necesitaba esta herramienta, incluso aunque fuera pagando. Allí vimos el negocio"
 
"El algoritmo es el mismo para diferentes lenguas, lo único que varía cada vez es la base de datos de vocabulario que utiliza para la transcripción, ya sea en español, catalán, inglés… Funciona para 89 lenguas distintas, incluyendo diversos acentos de ciertos idiomas, como por ejemplo el español y el inglés"
 
"Lo que el usuario recibe es el borrador y un editor que sincroniza texto con sonido. De modo que uno puede escuchar en tiempo real y comparar si lo transcrito es correcto o no. Como si fuera un karaoke"
Usted y su socio, André Bastié, se conocieron en Dublín y lanzaron su app “happy scribe”. ¿Por qué una app y no otra cosa?
André y yo compartíamos piso mientras estudiábamos en Dublín. Él un máster de comercio electrónico y yo mi último semestre de ingeniería de telecomunicaciones. Sucedió que un día, mientras él hacía un trabajo académico, se encontró con que tenía que transcribir 12 horas de entrevistas. Llegó a casa y me comentó que le daba mucho “palo” hacerlo, así que buscamos opciones tecnológicas cercanas. En Dublín estábamos trabajando en un programa de “Massive Learning” y con algoritmos de TV por computadora. Y escribimos un pequeño programa que era capaz de hacer transcripciones muy básicas. Lo probamos con los apuntes de André y funcionó bastante bien. 

¿Más que la traducción de Google? 
Aquel era un programa muy simple en una terminal, al que añadías un archivo de audio y lo que salía era un archivo de texto. Más tarde se pasó por casa un compañero de André y le pidió poder hacer lo mismo con sus propios apuntes. Y luego otro más. Y al final resultó que la gente nos lo iba pidiendo orgánicamente. Llegó el día en el que pensamos que valdría la pena hacer de esto una interficie web para que la gente que quisiera lo pudiera utilizar visitando internet. 
 
Hasta ahora, el gran reto de este tipo de programas era la base de reconocimiento de voces y el vocabulario. Hace algún tiempo entrevistamos a un proyecto que requería de unas pruebas de voz de la persona antes de que ésta pudiera ser transcrita.
Le diré que los algoritmos que efectúan reconocimiento de voz han avanzado mucho en los últimos años y meses, gracias al avance en el Massive Learning. Y nuestro algoritmo en concreto no necesita de ninguna base de voces y cuenta con un amplio diccionario, de modo que él mismo va aprendiendo a hacer transcripción.
 
¿A partir de qué momento dejan de ser los compañeros de universidad que resuelven problemas de transcripción y se convierten en empresarios? (Quizás quiera responder André a esta pregunta y se la traducimos directamente al castellano).
Fue hace cinco meses, a principios de 2017. Creamos una web. En un solo día tuvimos cobertura de prensa norteamericana y en una semana más, millares de peticiones de información. El servicio, hasta ese momento, era gratuito, así que recibió un montón de visitas. Tuvimos que apagarlo durante una semana, para ajustar las cosas y a la semana siguiente volvimos y le pusimos un precio al servicio. Lo realmente increíble es que la tasa de conversión cuando el servicio era gratuito era de un 20% y cuando se lo pusimos, la tasa fue del 10%. O sea, que seguía habiendo gente que necesitaba esta herramienta, incluso aunque fuera pagando. Allí vimos el negocio.
 
Alguien les diría que hicieran un plan de negocio, claro.
Pues no. Este es un servicio que necesitan muchas empresas y muchos particulares. Ahora mismo el sistema funciona mediante por minuto, porque los costes crecen linealmente por cada minuto transcrito. El precio actual es de nueve o diez céntimos cada minuto y la gente sube allí sus archivos y paga por lo que transcribe. En las próximas semanas tendremos una serie de cambios que permitirán al usuario suscribirse, si lo quiere.

¿El suyo es un algoritmo que entiende diversos idiomas?
Efectivamente, el algoritmo es el mismo para diferentes lenguas, lo único que varía cada vez es la base de datos de vocabulario que utiliza para la transcripción, ya sea en español, catalán, inglés… Funciona para 89 lenguas distintas, incluyendo diversos acentos de ciertos idiomas, como por ejemplo el español y el inglés. 
 
O sea, que distingue el castellano de un gallego del castellano de un cordobés…
Bueno, precisamente esas variantes no, porque son muy minoritarias. Pero en cambio, el acento de un colombiano o de un argentino sí que es capaz de distinguirlo. Igual pasa con el inglés que habla un australiano, un galés o un señor de Inglaterra.

¿Su empresa ha recibido ya la visita de algún inversor interesante e interesado?
La empresa tiene sólo cuatro o cinco meses de vida. Actualmente estamos en un momento de crecimiento orgánico, pero en el que la decisión que debemos tomar es la de si queremos crecer al ritmo actual o más rápidamente. De ello depende si necesitaremos inversión o no en las diversas fases. Y estamos debatiéndolo ahora mismo.

¿El servicio se presta a tiempo real? Es decir, ¿el usuario obtiene enseguida su transcripción?
Sí. Uno sube el archivo de audio al sistema y éste le crea un borrador en formato de texto. En función de la calidad del sonido, de si hay ruidos de fondo, o si hay varias personas hablando a la vez, o los acentos muy fuertes, la fidelidad de transcripción de ese borrador es mayor o menor.  Lo bueno del borrador es que le permite al usuario realizar pequeñas modificaciones sobre el resultado. Es decir, le permite hacer una revisión sobre el texto, y eso es fácil porque lo que el usuario recibe es el borrador y un editor que sincroniza texto con sonido. De modo que uno puede escuchar en tiempo real y comparar si lo transcrito es correcto o no. Como si fuera un karaoke. Incluso puedes mapear la situación de una palabra concreta dentro del texto. El proceso es super fácil y muy rápido.
 
¿El sistema ya ha llegado a su máximo nivel de perfeccionamiento o todavía tienen ideas para mejorarlo?
Nos vienen ideas continuamente. De hecho, tenemos muchas opciones para el futuro.

¿Cómo esta idea ha nacido aquí y no en el Silicon Valley? ¿A qué lo atribuyen?
Bueno, le diré que no somos los únicos y que ya tenemos competencia… En Silicon Valley, por ejemplo, hay una empresa que fue fundada hace un mes. Y en Londres hay otra que comenzó a hacer lo mismo un poco antes que nosotros. 
 
¿Y en qué se diferencian? ¿En los algoritmos que utilizan?
Realmente estas empresas no son propietarias del algoritmo, porque éste ha sido desarrollado por parte de grupos de investigación pertenecientes a Cambridge, o a Google mismo. Estos centros los publican de forma abierta para que la gente los pueda implementar.

En el ámbito de los negocios hay muchas aplicaciones posibles para lo que ustedes venden. Pienso en empresas del sector de la comunicación social y en otras. En lo comercial ¿cómo va a ser su crecimiento?
Tenemos diversos proyectos y alternativas encima de la mesa. En la que trabajamos actualmente es en la de ofrecer el servicio a estudiantes, periodistas e investigadores. Pero luego está el sector de los “mass media”. Estamos ya colaborando con Barcelona TV y parece que es algo que necesitan.
 
Le pregunto ahora a André: ¿ya se ha instalado a vivir ahora en Barcelona? Entre Dublín y Barcelona habrá notado diferencia…
Sí (se ríe). Nos vamos a quedar aquí. Por lo menos durante los próximos meses, aunque también viajaremos. El origen de la empresa y su sede social está en Irlanda y allí existe ahora mismo un ecosistema muy bueno para la emprendeduría, de modo que seguimos en contacto con empresas de allí.
 
Dicen que Irlanda diseñó un sistema tributario muy interesante para las nuevas empresas. 
Por la información que tenemos, constituir una empresa en España requiere mucho más dinero y burocracia. Aquí las cosas son muy lentas. En Irlanda vas a una página web y como si se tratara de una compra de Amazon te abres una empresa. Lógicamente esto favorece mucho la emprendeduría.
 
Los dos están ya graduados. ¿Seguirán formándose o han terminado la cosa académica?
André ha terminado su MBA en Inglaterra y yo terminé el grado de Ingeniería. Comenzaré un máster de división por computador en la UAB el próximo semestre, mientras trabajo en la empresa.
 
¿Hay más socios o personas al cargo?
Somos nosotros dos, nada más. Pero estamos expandiéndonos. Buscamos a un experto en marketing que pueda acelerar la producción y a desarrolladores para aumentar la velocidad del crecimiento del producto. Y también estamos buscando a personas que puedan ayudarnos en la venta.
 
Trataremos de transcribir esta entrevista con Happy Scribe, aunque luego, ya saben, tenemos a un editor de textos que hará y deshará según convenga. En todo caso, les felicito por su proyecto.