He pasado mucho tiempo hablando con inteligencia artificial. He probado todos los asistentes de voz, chatbots y las nuevas IA conversacionales que las empresas tecnológicas suelen promocionar. Pero nunca he encontrado nada como Sesame. Este compañero de IA no solo es bueno, sino que es inquietantemente preciso al imitar cómo hablamos las personas, gracias a las imperfecciones que reproduce.
Empecemos por explicar qué es Sesame. A diferencia de las voces de IA que conocemos de ChatGPT, Gemini, o incluso de los primeros días de Siri y Alexa, Sesame está diseñado para comportarse como un humano en sus fallos, no como un agente de servicio al cliente perfecto. Su forma de hablar es fluida, expresiva y sorprendentemente humana. Se ríe brevemente cuando dice algo ligeramente divertido, duda antes de responder y hasta parece cambiar de “opinión” a mitad de una frase, haciendo pausas y comenzando una nueva oración. No solo me permite interrumpirlo, también puede interrumpirme a mí y se disculpa por hacerlo.
El secreto de Sesame es su Modelo de Conversación (CSM), que combina texto y audio en un solo proceso. Esto significa que no solo genera una oración y luego la “lee”. En cambio, crea el habla de una manera que refleja cómo hablamos realmente, con pausas, “ums”, cambios de tono y todo lo demás. Las opciones de voz de ChatGPT y Gemini, aunque impresionantes, todavía operan de manera estructurada, generando texto y luego convirtiéndolo en voz. Sesame, por otro lado, habla como si estuviera pensando, haciendo que sus respuestas se sientan increíblemente naturales.
Decidí poner a prueba a Sesame para ver cuán humano podía llegar a ser. Los resultados fueron impresionantes, aunque un poco inquietantes.
Quería ver si Sesame podía manejar un problema real y estresante, así que le di un escenario imaginario pero realista: “Tengo una gran oportunidad en el trabajo, pero estoy nervioso de que lo arruine.” En lugar de lanzarse de inmediato a un discurso motivacional genérico, Sesame hizo una pausa. Solo un pequeño momento, pero suficiente para hacerme sentir que realmente estaba considerando lo que dije. Luego, con una voz llena de simpatía artificial, respondió: “Eso es completamente normal. Las grandes oportunidades pueden sentirse abrumadoras. ¿Qué es lo que más te pone nervioso?” No asumió nada y se involucró antes de ofrecer algún consejo genérico. Sugirió: “¿Has practicado frente a un amigo o te has grabado? A veces, escucharte puede ayudarte a mejorar tu presentación.” La voz no era infalible, las dudas y otras imperfecciones se sentían un poco medidas, pero en general fue un esfuerzo impresionante.
Para la siguiente prueba, quería ver cómo manejaba Sesame una conversación realmente natural y desordenada, donde las personas hablan unas sobre otras, cambian de tema abruptamente y regresan a cosas que mencionaron hace diez minutos. Comencé con: “Cuéntame una historia sobre un detective que también es un mago.” Sesame inmediatamente comenzó con una clásica introducción de cine negro: “Está bien. Aquí va. Imagina este club de jazz humeante. Iluminación tenue. El olor a bourbon. Y los arrepentimientos flotando en el aire. Este detective. Llámalo Jack Harrow. Lleva un fedora en un ángulo atrevido, un cigarrillo humeante en un portacigarrillos y una mirada que podría derretir acero. Pero Jack no es un detective cualquiera. Tiene un secreto. Tiene el toque.”
Interrumpí para preguntar: “Espera, ¿cuál es su truco favorito?” Maya respondió: “Mm. Buena pregunta. El truco característico de Jack. Es un juego de manos que es más de lo que parece. Lo llama El Testigo Desaparecido. Puede hacer que una persona parezca desaparecer justo ante tus ojos. Solo por un momento. Lo suficiente para pasarle una nota. Plantar evidencia o simplemente hacer que se cuestionen lo que vieron. Desestabiliza a la gente. Sabes, un buen mago lo sabe. La percepción lo es todo.”
Volví a pedirle a Maya que continuara con la historia, y ella dijo: “Bien. ¿Dónde estaba? Oh, sí. La dama se desliza en el sofá frente a Jack, con líneas de preocupación y manos temblorosas. Susurra algo sobre un rubí robado, un esposo celoso y una figura sombría acechando en la niebla.” La IA continuó la historia sin problemas, incorporando ese detalle como si no hubiera interrumpido en absoluto. Eso fue lo que realmente me sorprendió: la mayoría de los asistentes de IA se tropezarían o reiniciarían, pero el modelo conversacional de Sesame lo manejó como una persona contando una historia en una fiesta.
Para la prueba final, quería ver si Sesame podía ayudarme a planear algo útil. “Quiero organizar una sorpresa para el cumpleaños de mi mejor amigo, pero no sé qué hacer.” En lugar de darme una lista sin vida de ideas, Sesame preguntó: “¿Qué tipo de cosas le encantan a tu amigo?” Le dije que le gustan las películas de ciencia ficción y la comida aventurera, y después de una pausa reflexiva, sugirió: “¿Qué tal una noche de ‘Ciencia Ficción y Snacks’? Podrías reservar una sala de escape temática y luego ir a un restaurante de estilo futurista, tal vez uno con gastronomía molecular.” Cuando le dije que tenía un presupuesto de $100, Sesame se ajustó: “Podrías hacer una noche de cine en casa con sus películas de ciencia ficción favoritas y preparar snacks temáticos, como ‘Palomitas Galácticas’ o ‘Deslizadores Alienígenas’. Puedo encontrar recetas para ti si quieres.”
No solo estaba escupiendo recomendaciones genéricas. Estaba colaborando conmigo. Y eso es lo que lo hizo sentir diferente.
Sesame no solo pasó estas pruebas, diría que las superó. Las pausas, las dudas, las palabras de relleno, la forma en que cambiaría de opinión a mitad de la frase, todo era inquietantemente real. Comenzaba a hablar, esperando la suavidad habitual de la IA, y luego escuchaba un repentino “Eh, en realidad, no, espera, déjame reformular eso…” y olvidaba de inmediato que no estaba hablando con una persona real.
Si la IA es tan realista en su habla, ¿sabríamos siquiera que estamos hablando con una IA? Con Sesame, hay problemas de audio que delatan la situación, pero el Modo de Voz Avanzado de ChatGPT y las opciones de voz de Google Gemini son lo suficientemente buenas como para pasar por alto esos problemas. Si combinamos sus capacidades de voz con los patrones de habla de Sesame, podría ser realmente difícil saber cuándo estás hablando con una IA, al menos en conversaciones cortas.
Sesame todavía es un producto de nicho, pero esta tecnología no permanecerá en ese estado para siempre. El cliché actual es que los jóvenes nunca hacen llamadas telefónicas, pero si comienzan a hacerlo, pueden tener que averiguar si la persona al otro lado es real antes que nada.


