Alexa, ¿cómo funciona Siri? Control de voz explicado

El mundo se está moviendo hacia los comandos de voz para todo, pero ¿cómo funciona exactamente el control de voz? ¿Por qué es tan complicado y restringido? Esto es lo que necesita saber como usuario lego.

El mundo se está moviendo hacia los comandos de voz para todo, pero ¿cómo funciona exactamente el control de voz?  ¿Por qué es tan complicado y restringido?  Esto es lo que necesita saber como usuario lego.
Anuncio

Podemos hablar con casi todos nuestros dispositivos ahora, pero ¿cómo funciona exactamente? Cuando preguntas "¿Qué canción es esta?" O dices "Llamar a mamá", está ocurriendo un milagro de la tecnología moderna. Y a pesar de que parece estar a la vanguardia, esta idea de hablar con dispositivos se remonta a décadas atrás, ¡casi tan lejos como los jetpacks de ciencia ficción!

En la actualidad, la mayor parte de la atención que se presta a la informática impulsada por la voz es en los teléfonos inteligentes. Apple, Amazon, Microsoft y Google se encuentran en la parte superior de la cadena, cada uno ofreciendo su propia forma de hablar con la electrónica. Usted sabe quiénes son: Siri, Alexa, Cortana, y el anónimo "Ok, Google". Lo cual plantea una gran pregunta ...

¿Cómo toma un dispositivo las palabras habladas y las convierte en comandos que puede entender? En esencia, se trata de hacer coincidir patrones y hacer predicciones basadas en esos patrones. Más específicamente, el reconocimiento de voz es una tarea compleja que proviene de modelado acústico y modelado de lenguaje .

Modelado acústico: formas de onda y teléfonos

forma de onda

El modelado acústico es el proceso de tomar una forma de onda de discurso y analizarla usando modelos estadísticos. El método más común para esto es Hidden Markov Modeling, que se utiliza en lo que se llama modelado de pronunciación para dividir el habla en partes componentes llamadas teléfonos (que no deben confundirse con los dispositivos telefónicos reales). Microsoft ha sido un investigador líder en este campo durante muchos años.

Modelos Ocultos de Markov: Estados de Probabilidad

Hidden Markov Modeling es un modelo matemático predictivo donde el estado actual se determina analizando la salida. Wikipedia tiene un gran ejemplo usando dos amigos.

Imagina a dos amigos, Amigo local y Amigo remoto, que viven en diferentes ciudades. Local Friend quiere saber cómo es el clima donde vive Remote Friend, pero Remote Friend solo quiere hablar sobre lo que hizo ese día: caminar, ir de compras o limpiar. La probabilidad de que cada actividad dependa del clima del día.

Modelos ocultos de Markov

Pretenda que esta es la única información disponible. Con él, Local Friend puede encontrar tendencias en cómo el clima cambió día a día, y al usar estas tendencias, puede comenzar a adivinar cómo el clima actual se basará en la actividad de su amigo de ayer. (Puede ver un diagrama del sistema anterior).

Si quieres un ejemplo más complejo, mira este ejemplo en Matlab. En reconocimiento de voz, este modelo esencialmente compara cada parte de la forma de onda con lo que viene antes y lo que viene después, y contra un diccionario de formas de onda para descubrir lo que se dice.

Esencialmente, si haces un sonido "th", va a verificar ese sonido contra los sonidos más probables que suelen aparecer antes y después. Tal vez eso signifique verificar el sonido "e", el sonido "at", etc. Cuando el patrón coincide correctamente, tiene su palabra completa. Esto es una simplificación excesiva, pero puede ver toda la explicación de Microsoft aquí.

Modelado de lenguaje: más que sonido

El modelado acústico contribuye en gran medida a que su computadora lo entienda, pero ¿qué pasa con los homónimos y las variaciones regionales en la pronunciación? Ahí es donde entra en juego el modelado del lenguaje. Google ha llevado a cabo una gran cantidad de investigaciones en esta área, principalmente a través del uso de N-gram Modeling .

Cuando Google intenta comprender su discurso, lo hace en base a modelos derivados de su enorme banco de búsquedas por voz y transcripciones de YouTube. Todos esos títulos de video hilarantemente incorrectos han ayudado a Google a desarrollar sus diccionarios. Además, utilizaron el desaparecido GOOG-411 para recopilar información sobre cómo hablan las personas.

shutterstock_70757203

Toda esta colección de idiomas creó una amplia gama de pronunciaciones y dialectos, lo que generó un sólido diccionario de palabras y cómo suenan. Esto permite coincidencias que tienen una tasa de error muy reducida que la combinación de fuerza bruta basada en probabilidades sin procesar. Puede leer un breve documento que describe sus métodos aquí.

Si bien Google es un líder en este campo, se están desarrollando otros modelos matemáticos, que incluyen modelos espaciales continuos y modelos de lenguaje posicional, que son técnicas más avanzadas que nacen de la investigación en inteligencia artificial. Estos métodos se basan en replicar el tipo de razonamiento que los humanos hacen cuando se escuchan unos a otros. Estos son mucho más avanzados tanto en términos de la tecnología detrás de ellos, sino también de las matemáticas y la programación necesaria para trazar estos modelos.

Modelado N-Gram: la probabilidad se encuentra con la memoria

El modelado de n-gramas funciona en función de las probabilidades, pero utiliza un diccionario de palabras existente para crear un árbol de posibilidades de ramificación, que luego se suaviza en aras de la eficiencia. En cierto modo, esto significa que N-gram Modeling elimina gran parte de la incertidumbre en el ya mencionado Hidden Markov Modeling.

Como se señaló anteriormente, la fortaleza de este método proviene de tener un gran diccionario de palabras y uso, no solo sonidos primitivos. Esto le da al programa la capacidad de diferenciar entre homófonos, como "latido" y "remolacha". Es contextual, lo que significa que cuando hablas de puntajes de anoche, el programa no está sacando palabras sobre borscht.

Pero estos modelos en realidad no son los mejores para el lenguaje, principalmente debido a problemas con las probabilidades de palabras en frases más largas. A medida que agregue más palabras a una oración, este modelo se ralentiza ya que es poco probable que sus primeras palabras hayan cargado todo lo necesario para su completo pensamiento.

Sin embargo, es simple y fácil de implementar, por lo que es una gran combinación para una empresa como Google que disfruta lanzando servidores en problemas de cómputo. Puede seguir leyendo en N-gram Modelieng en la Universidad de Washington, o puede ver una conferencia en Coursera.

Gritando a las nubes: aplicaciones y dispositivos

Cualquiera que haya usado Siri conoce la frustración de una conexión de red lenta. Esto se debe a que tus comandos a Siri se envían a través de la red para que Apple los descodifique. El teléfono Cortana para Windows también requiere una conexión de red para funcionar correctamente. Por el contrario, sin embargo, Amazon's Echo es solo un altavoz Bluetooth sin Internet.

¿Por qué la diferencia? Porque Siri y Cortana necesitan servidores pesados ​​para decodificar su discurso. ¿Podría hacerse en su teléfono o tableta? Claro, pero mataría su rendimiento y duración de la batería en el proceso. Simplemente tiene más sentido descargar el procesamiento a máquinas dedicadas.

SIGCHI_Conference_Paper_Format _-_ KumarSpeechRecognitionForMobileApps_pdf

Piénselo de esta manera: su comando es un automóvil atrapado en el barro. Probablemente puedas empujarlo tú mismo con suficiente tiempo y esfuerzo, pero tomará horas y te dejará exhausto. En cambio, llamas a asistencia en el camino y sacan tu auto en pocos minutos. La desventaja es que tienes que hacer la llamada y esperar por ellos, pero es aún más rápido y menos exigente.

Los modelos de escritorio como Nuance tienden a usar recursos locales debido al hardware más potente. Después de todo, en palabras de Steve Jobs, su computadora de escritorio es un camión. (Lo que hace que sea un poco tonto que OS X esté usando servidores para su procesamiento). Por lo tanto, cuando necesite procesar el idioma y la voz, ya estará lo suficientemente bien como para manejarlo solo.

Por otro lado, Android permite a los desarrolladores incluir el reconocimiento de voz fuera de línea en sus aplicaciones. A Google le gusta adelantarse a la tecnología, y puede apostar que las otras plataformas ganarán esta capacidad a medida que su hardware se vuelva más poderoso. A nadie le gusta cuando la mala cobertura o la mala recepción lobotomizan su dispositivo.

Comience a usar comandos de voz ahora

Ahora que conoce los conceptos fundamentales, debe jugar con sus diversos dispositivos. Pruebe la nueva tipificación de voz en Google Docs Cómo la tipificación de voz es la mejor característica de Google Docs Cómo la tipificación de voz es la mejor característica de Google Docs El reconocimiento de voz ha mejorado a pasos agigantados en los últimos años. A principios de esta semana, Google finalmente introdujo la tipificación de voz en Google Docs. Pero, ¿es bueno? ¡Vamos a averiguar! Lee mas . Como si la suite de aplicaciones web no fuera lo suficientemente potente, el control por voz le permite dictar y formatear completamente sus documentos. Esto amplía la poderosa tecnología que ya diseñaron para Chrome y Android.

Otras ideas incluyen configurar su Mac para usar comandos de voz Cómo usar los comandos de voz en su Mac Cómo usar los comandos de voz en su Mac Leer más y configurar su Amazon Echo con pago automático Cómo Amazon Echo puede hacer de su hogar un hogar inteligente Cómo funciona Amazon Echo Echo puede hacer que su hogar sea un hogar inteligente La tecnología de hogar inteligente todavía está en sus inicios, pero un nuevo producto de Amazon llamado "Echo" puede ayudar a llevarlo a la corriente principal. Lee mas . Vive en el futuro y acepta hablar con tus gadgets, incluso si solo estás pidiendo más toallas de papel. Si usted es un adicto a los teléfonos inteligentes, también tenemos tutoriales para Siri 8 Cosas que probablemente no se dio cuenta de que Siri podría hacer 8 cosas que probablemente no se dio cuenta Siri podría haberse convertido en una de las características definitorias del iPhone, pero por muchas personas, no siempre es lo más útil. Mientras que algo de esto se debe a las limitaciones del reconocimiento de voz, la rareza de usar ... Leer más, Cortana 6 Cosas más geniales que puedes controlar con Cortana en Windows 10 6 Cosas más geniales que puedes controlar con Cortana en Windows 10 Cortana puede ayudarte vaya a manos libres en Windows 10. Puede dejar que busque sus archivos y la web, haga cálculos o levante el pronóstico del tiempo. Aquí cubrimos algunas de sus habilidades más geniales. Lea más, y Android OK, Google: más de 20 cosas útiles que puede decir a su teléfono Android OK, Google: más de 20 cosas útiles que puede decir a su teléfono Android Lentamente, sin que nos demos cuenta, el futuro ha llegado. Lee mas .

¿Cuál es tu uso favorito de control de voz? Háganos saber en los comentarios.

Créditos de las imágenes: T-flex a través de Shutterstock, Terencehonles a través de la Fundación Wikimedia, Arizona State, Cienpies Design a través de Shutterstock

In this article