Shoebox de IMB - Siri
15 de Diciembre de 2017
Por:
Mauricio Romero

En 70 años, las máquinas de reconocimiento de voz pasaron de entender algunos números a ser capaces de responder y traducir millones de palabras a velocidades sorprendentes.

Del balbuceo al humor inteligente

El reconocimiento de voz solía ser una propiedad de los computadores, pero se extendió al teléfono móvil, el automóvil y el hogar. El ser humano depende cada vez más de hablar con las máquinas sin necesidad de oprimir botones, y probablemente llegue el momento en que la interacción con cualquier dispositivo sea mediante una conversación, como lo hacían los astronautas con el computador Hal 9000 en la cinta 2001: Odisea en el espacio. He aquí un repaso por la historia.

1952. Bell Laboratories diseña el sistema de cómputo Audrey, que entendía la pronunciación de números.

1962. La tecnológica IBM lanza la máquina Shoebox (caja de zapatos), que tiene la capacidad de comprender 16 palabras en inglés.

Finales de los 60. Compañías de países como Inglaterra, Rusia, Japón y Estados Unidos desarrollan software de reconocimiento de voz que pueden reconocerse como pioneras de la tecnología.

1970. La agencia de investigación estadounidense Darpa comienza un programa que da como resultado la creación del sistema Harpy, que podía entender cerca de 1.000 palabras, es decir el vocabulario de un niño de 3 años. El programa terminó en 1976.

1975. Aparece la primera empresa dedicada al software de reconocimiento de voz: Threshold Technology.

1976. Bell Laboratories presenta un sistema con capacidad para reconocer la voz de diferentes personas.

1980. Se desarrolla el modelo Markov, que además de comprender miles de palabras, infiere el significado de sonidos que no necesariamente son vocablos.

1985. El inventor Ray Kurzweil, el mismo adalid del concepto de singularidad, crea un programa para computador de texto y reconocimiento de voz.

1987. Nace Julie, la muñeca que los niños podían entrenar para que les respondiera a su voz. “Finalmente, la muñeca que te entiende”, rezaba el eslogan publicitario.

1990. Surge Dragon, el primer programa de computador que entiende diferentes tipos de voz humana y toma dictado con bastante precisión. Dragon Dictate costaba 9.000 dólares en esa época. El software se puede entrenar para que ‘aprenda’ más vocabulario o mejore la comprensión de la pronunciación y el tono del usuario.

1996. Bellsouth crea un portal llamado VAL, al que llaman los usuarios y este les brinda información según lo que ellos digan, sin intervención humana.

1997. Los mismos creadores de Dragon presentan Dragon NaturallySpeaking, que entiende y convierte en texto una conversación humana normal, a una velocidad de 100 palabras por minuto, un poco más rápido que un digitador profesional. El entrenamiento del programa para que reconociera la voz del usuario tardaba casi una hora y costaba casi 700 dólares.

2001. Los sistemas operativos Windows Vista y Mac OS X incorporan software de reconocimiento de voz como opción predeterminada en sus equipos, con casi un 80 por ciento de precisión.

2008. Google desarrolla una aplicación que permite realizar búsquedas con la voz desde teléfonos de Apple.

2010. Mejora la calidad de la búsqueda por voz de Google y se lanza para dispositivos móviles con sistema Android.

2010. Apple adquiere la firma Siri Inc. y desarrolla en sus equipos el sistema de reconocimiento Siri, capaz de entender la forma propia de hablar del usuario, con el fin de que el teléfono ejecute acciones o realice búsquedas.

2012. Se contabilizan 230.000 millones de palabras reconocidas por el sistema de Google en distintos idiomas.

2016. Las versiones más recientes de Siri incorporan cierto nivel de humor y mayor naturalidad al interactuar con el usuario.

2017. La compañía Nuance, propietaria de Dragon NaturallySpeaking, ofrece programas especializados en productividad para distintas profesiones y en la mayoría de idiomas conocidos, con una precisión cercana al 100 por ciento.

El próximo paso es acoplar el reconocimiento de voz a otros dispositivos, como los electrodomésticos, de tal forma que su uso sea más ubicuo.

 

 

*Publicado en la edición impresa de febrero de 2017.