DM : Diseño Multimedia: Reconocimiento de Voz

Mostrando entradas con la etiqueta Reconocimiento de Voz. Mostrar todas las entradas

lunes, 4 de junio de 2012

Dragon TV

La voz es el interfaz natural de la comunicación humana. El lenguaje, el discurso, el habla son primarios. La escritura, los gadgets de la computadora son secundarios. La tecnología de reconocimiento de voz tendrá un impacto económico sobresaliente.

En el mundo hay millones de analfabetos. Hay millones de personas que no se acercan a una computadora, un potencial mercado. Desarrollar una tecnología de reconocimiento de voz mucho mejor que los balbuceantes esbozos actuales puede dar la premicia a la empresa que lo consiga. Nuance es una de ellas: desde la computadora hasta televisores, está tratando de llevar su conocimiento a todos lados.

Hasta hace dos años el reconocimiento de voz era un objeto de investigación científica más o menos pintoresco. Hoy nuestros smartphones pueden hacerlo, aunque con muchos problemas. En realidad no es el teléfono el que lo hace. Este graba la voz y la envía a un servidor. Allí se compara con una base de datos de millones de ejemplos y se traduce a texto que es enviado de vuelta al teléfono. Cada vez que usas el reconocimiento de voz, la base de datos se amplía y mejora. Es la tecnología de Google, similar a lo que hace Translator, un gigantesco proceso estadístico. Es también lo que hace Siri, aunque en este caso incorpora un intento de entender el mensaje y responder a él.

Entender la voz es muy complejo, nos cuesta a los humanos. En un ambiente ruidoso pedimos a nuestro interlocutor que repita la frase, más alto y más claro. De forma similar las computadoras tienen grandes problemas, uno de ellos es el acento. La ventana de edad óptima para aprender la fonología, el sonido de la lengua, se cierra a los diez años, aunque es óptima hasta tan solo los cinco años, después es muy complicado perder el acento extranjero al aprender una nueva lengua.

Watson, la computadora más lista del mundo compitió en Jeopardy sin implementar reconocimiento de voz. Recibía las preguntas como texto. Para incorporar a Watson al mundo médico, IBM estableció un acuerdo con Nuance, una compañía que entre otras cosas trabaja en el reconocimiento de voz.

Nuance está extendiendo su software a muchos ámbitos y acaba de presentar Dragon TV, una televisión con reconocimiento de voz, puedes pedirle que busque programas en los que aparezca Brad Pitt. O que cambie al canal FOX. O que reproduzca música de U2.

El sistema de entretenimiento Sync de los coches de la Ford usa la tecnología de Nuance para preguntar la dirección al conductor, el lugar de destino para proporcionar la información del tiempo o que canciones quieres oír. El mundo del teclado, mouse y pantalla táctil evoluciona hacia el interfaz de voz, mucho más natural.

Visita el sitio de Dragon TV
Atte. DM

miércoles, 5 de octubre de 2011

iPhone 4S, Siri & iCloud

Como ya se hizo con el iPhone 3GS, la evolución del iPhone 4 no es una quinta versión. Es decir, no llega con cambios sustanciales en el diseño, sino en sus componentes. El iPhone 4S incluye un chip mejorado -A5, diseñado por Apple y con el doble de capacidad de proceso- y una cámara de 8 megapíxels con hasta 3264x2488 px de resolución.

Pero las aplicaciones que lanzaron en conjunto con el iPhone 4S, Siri & iCloud robaron la atención de miles de internautas, el día de ayer en las principales redes sociales en Twitter y Facebook. Aquí hablaremos un poco de las dos.

Siri
Es el nuevo asistente de voz del teléfono de Apple capaz de responder a preguntas naturales y de ejecutar tareas sin utilizar el teclado. Un programa que, según ha mostrado Scott Forstall, responsable del sistema operativo para móviles iOS, es capaz de responder a preguntas de voz como "¿Qué tiempo hace hoy?", "¿Cuántos días quedan hasta Navidad?" o "¿Qué hora es en París?". Pero también puede poner activa una alerta a la hora deseada -"Quiero que me despiertes a las seis de la mañana"- o apuntar una cita en el calendario del teléfono.

Siri hace casi de todo y será compatible con las aplicaciones habituales de Apple y con las de terceros. Contestará en cascada a los mensajes del usuario, responderá a sus acciones y podrá incluso mostrar los pendientes a petición del cliente. Su estreno llegará al mismo tiempo que el nuevo iPhone 4S, pues sólo estará incluido en este smartphone por ahora sólamente en inglés, francés y alemán. El español llegará, pero habrá que esperar.

iCloud
Como ya había anunciado Steve Jobs en su última presentación, es un sistema para sincronizar contenido sin pasar por la computadora que "uses". La primera gran novedad es que se podrá sincronizar sin tener que conectarlo a la computadora. No habrá que volver a conectar el celular o el iPad a iTunes para sincronizarlo. Bastará con añadir un contacto, un evento, tomar una foto o crear un documento en un dispositivo para que esté en todos, en la iMac inclusive.

Asimismo, las aplicaciones funcionarán igual. Instaladas en un dispositivo, se hace en todos. Además, existirá la posibilidad de hacer una copia de seguridad sin necesidad de pasar por la computadora. Apple también introducirá Find My Friends, una aplicación que permitirá saber en cualquier momento dónde están mis contactos o crear eventos temporales con estricto control de privacidad. Una nube cuyo espacio de almacenamiento será ilimitado para todo excepto para correo, documentos y 'backup'. En dicho caso el límite será de 5 GB pero habrá planes de pago para mejorar la capacidad.

Para más información del iPhone 4S visita la página de Apple
Atte. DM

viernes, 25 de marzo de 2011

Google Chrome 11

El mercado de los navegadores está que arde, y es que pocos días después de que se estrenara Internet Explorer 9 y apenas unas horas tras el lanzamiento de Firefox 4, Google ha liberado la versión beta de Chrome 11, que llega con novedades.

La principal es la capacidad para reconocer la voz del usuario, que es posible gracias al soporte para la API de reconocimiento de voz de HTML5.

“Con esta API, los desarrolladores pueden dotar a las aplicaciones web de la capacidad para transcribir la voz a texto”, según apuntan desde Google Chrome, y añaden que para hacer uso de esta función simplemente hay que “hacer clic en el icono y hablar en el micrófono del equipo”.

Una vez que el usuario ha grabado su voz, el audio es enviado a los servidores donde se trascribe en texto. Esta funcionalidad, que ya se incluía en otras plataformas, puede ofrecer múltiples posibilidades a los desarrolladores de aplicaciones para Chrome.

Además del reconocimiento por voz, la versión beta de Chrome 11 incluye un adelanto de la aceleración de gráficos en 3D para CSS. Esta versión también ha servido para estrenar el nuevo logotipo del navegador, del que han desaparecido los efectos tridimensionales para transmitir el espíritu de Chrome: “hacer la navegación web más rápida, ligera y sencilla”, según explica la compañía.

Visita y descarga esta versión Beta en la página oficial de Google Chrome 11
Atte. DM

miércoles, 2 de marzo de 2011

Google Voice

Google, la gigantesca compañía de servicios en Internet, dio a conocer hoy Google Voice, una herramienta tecnología en su amplio abanico de opciones que, según especialistas, tiene el potencial de revolucionar el uso del teléfono.

Google Voice promete unificar la computadora con el teléfono para optimizar el potencial de ambos aparatos y facilitar la comunicación por voz y texto. Con este nuevo servicio, Google se coloca en competencia directa con las compañías telefónicas tradicionales y los nuevos proveedores de VoIP, que usan Internet para la comunicación de voz.

Google Voice otorgará en forma gratuita a quien se suscriba a su servicio un nuevo número telefónico que recibirá llamadas y las canalizará a cualquiera de los teléfonos que la persona tenga, ya sea en su casa, oficina o su celular.

El servicio ofrecerá también una contestadora telefónica, donde los mensajes quedarán almacenados al mismo tiempo en voz y texto en el correo electrónico de la persona. El usuario podrá hacer llamadas gratuitas dentro de Estados Unidos (por ahora) con sólo llamar al número que le fue asignado para recibir tono y marcar el teléfono al que se desea hablar. Podrá también hacer llamadas internacionales mediante el pago de una cuota que promete ser menos a la que cobran servicios de telefonía por Internet como Skype y otros.

También gratis, Google Voice dará servicio de teleconferencia, de forma que el usuario no pagará para participar en una conferencia telefónica con los compañeros de trabajo o familiares y amigos, ni tendrá que llamar a un número especial con código para hacerlo.

La nueva herramienta, que estará disponible en unas semanas, ofrecerá además mensajes de texto a cualquier teléfono que se desee o a múltiples teléfonos. De acuerdo con expertos, si Google Voice cumple con lo que se ha prometido, el servicio tiene el potencial de tener un fuerte impacto en la forma como las personas manejan su telefonía.

Google Voice se sustenta en una tecnología desarrollada por la compañía Grand Central Communications, que fue adquirida por Google en 2007. Grand Central, tenía la meta de ofrecer a las personas un nuevo número telefónico, sencillo y unificado, con el código de área que desearan. Cuando alguien llame al número unificado, todos los teléfonos del usuario sonarían a la vez.

Google Voice recogió esa meta y la superó con más innovaciones, como la de consultar los recados telefónicos en la computadora en forma rápida y directa sin tener que escucharlos todos. Además colocar en la grabadora telefónica mensajes personalizados para recibir a quienes llamen y dejen recado con un saludo especial de acuerdo al número de teléfono de quien llama, como 'hola hermano' o 'que tal jefe'. Los mensajes podrán escucharse a través de la computadora o teléfono celular y guardarse si así se desea.

La tecnología de reconocimiento de voz requiere una enorme cantidad de datos para alimentar los modelos estadísticos y mucho poder computacional para entrenar nuestros sistemas, y Google es el lugar ideal para incursionar en estos enfoques tecnológicos. Con grandes cantidades de datos, poder computacional y una infraestructura enfocada en soportar servicios a gran escala, se tiene la base necesaria para lanzar rápidamente y salir con nuevas versiones basándose en retroalimentación en tiempo real.

Nos imaginamos una exhaustiva interfaz para comunicaciones de voz y de texto que desafíe todas las barreras de modalidad e idioma y haga que la información esté realmente accesible de forma universal. Y creo que en Google se tiene la mejor oportunidad para convertir a este futuro en una realidad.

Para mayor información, visita la página de Google Voice
Atte. DM