La calidad de las voces generadas por inteligencia artificial es lo suficientemente buena para crear audiolibros, podcasts, leer artículos en voz alta y ofrecer soporte al cliente básico. Sin embargo, muchas empresas consideran que la tecnología de voz AI no es lo suficientemente confiable para su uso generalizado. Por eso, dos graduados del MIT, Moin Nadeem y Nikhil Murthy, fundaron Phonic, una empresa que ofrece una solución completa de voz para aumentar la confiabilidad de las voces sintéticas y reducir la latencia.
Nadeem y Murthy se conocieron en el MIT y han sido amigos durante más de siete años. Cuando comenzaron a desarrollar Phonic el año pasado, notaron que había pocas empresas que ofrecieran soluciones completas en tecnología de voz. Murthy comentó que la inteligencia de voz está en un punto donde se combinan diferentes partes, como el reconocimiento de voz automático y la conversión de texto a voz, pero al hablar con clientes reales, se dieron cuenta de que faltaban soluciones confiables a gran escala.
Nadeem, quien trabajó anteriormente en MosaicML, una empresa adquirida por Databricks por 1.3 mil millones de dólares en 2023, mencionó que muchas empresas en el espacio de la voz AI están creando flujos de trabajo que unen modelos de IA separados. Phonic adopta un enfoque diferente: entrena sus modelos internamente de manera integral. Murthy explicó que esto tiene varias ventajas, como la posibilidad de integrar elementos de confiabilidad directamente en los modelos. Si no se posee esa capa, solo se están uniendo piezas dispares que no encajan de manera fluida.
Además, el método de Phonic permite a la empresa alojar y ejecutar modelos de manera rentable. Afirma que entrena sus modelos con una variedad de grabaciones, incluyendo discursos con acentos y sonidos apagados, para hacerlos más robustos. Actualmente, Phonic trabaja con un número limitado de socios en los sectores de seguros y salud, pero planea lanzar su producto de manera más amplia en unos meses. Pronto, los clientes potenciales podrán probar la tecnología de Phonic a través de su sitio web.
Phonic ha recaudado 4 millones de dólares en una ronda de financiamiento inicial liderada por Lux, con la participación de Amjad Masad, cofundador de Replit, Clem Delangue, cofundador de Hugging Face, Qasar Younis, cofundador de Applied Intuition, y Erik Bernhardsson, fundador de Modal Labs. Grace Isford, socia de Lux Capital, destacó que el enfoque interno de Phonic para entrenar modelos fue atractivo para la firma de inversión. “Creemos que tanto Moin como Nikhil son tecnólogos increíbles”, dijo. “Fundaron un club de aprendizaje automático en el MIT y han trabajado en el entrenamiento de modelos durante un tiempo. Además, su enfoque de combinar modelos de difusión y modelos propios en el sector de la voz AI es novedoso”.


