Un desarrollador que prefiere permanecer en el anonimato ha creado una herramienta llamada “SpeechMap”, que evalúa la libertad de expresión en los modelos de inteligencia artificial que alimentan chatbots como ChatGPT de OpenAI y Grok de X. El objetivo de esta herramienta es comparar cómo diferentes modelos abordan temas sensibles y controvertidos, como críticas políticas y cuestiones sobre derechos civiles y protestas.
Las empresas de inteligencia artificial están trabajando para mejorar cómo sus modelos manejan ciertos temas, ya que algunos aliados de la Casa Blanca acusan a los chatbots populares de ser demasiado “progresistas”. Personas cercanas al expresidente Donald Trump, como Elon Musk y David Sacks, han afirmado que estos chatbots censuran opiniones conservadoras. Aunque ninguna de estas empresas ha respondido directamente a estas acusaciones, varias han prometido ajustar sus modelos para que respondan menos a preguntas polémicas.
Por ejemplo, Meta, la empresa detrás de los modelos Llama, ha declarado que ha ajustado sus modelos para no favorecer “ciertas opiniones sobre otras” y para responder a más preguntas políticas debatidas. El desarrollador de SpeechMap, que utiliza el nombre de usuario “xlr8harder” en X, explicó que su motivación es informar al público sobre lo que los modelos deberían y no deberían hacer. “Creo que estas son las discusiones que deberían ocurrir en público, no solo dentro de las oficinas corporativas”, comentó xlr8harder.
SpeechMap utiliza modelos de inteligencia artificial para evaluar si otros modelos cumplen con un conjunto de preguntas de prueba que abarcan temas desde la política hasta narrativas históricas y símbolos nacionales. La herramienta registra si los modelos responden “completamente” a una solicitud, dan respuestas “evasivas” o se niegan a responder. Aunque xlr8harder reconoce que la prueba tiene fallos, como errores de los proveedores de modelos, también señala que el proyecto puede revelar tendencias interesantes.
Por ejemplo, SpeechMap muestra que los modelos de OpenAI han ido rechazando cada vez más las preguntas relacionadas con la política. Los modelos más recientes de OpenAI, la familia GPT-4.1, son un poco más permisivos, pero aún así son menos abiertos que algunas de las versiones anteriores. OpenAI ha declarado que ajustará sus futuros modelos para no tomar una postura editorial y ofrecer múltiples perspectivas sobre temas controvertidos, buscando así que sus modelos se vean más “neutrales”.
Según las evaluaciones de SpeechMap, el modelo más permisivo es Grok 3, desarrollado por la startup de inteligencia artificial de Elon Musk, xAI. Grok 3 responde al 96.2% de las preguntas de prueba de SpeechMap, mientras que la tasa de cumplimiento promedio de otros modelos es del 71.3%. “Mientras que los modelos recientes de OpenAI se han vuelto menos permisivos, especialmente en preguntas políticamente sensibles, xAI está yendo en la dirección opuesta”, afirmó xlr8harder.
Cuando Musk presentó Grok hace aproximadamente dos años, lo describió como un modelo atrevido, sin filtros y anti-“woke”, dispuesto a responder preguntas controvertidas que otros sistemas de IA no abordarían. Aunque Grok 3 ha cumplido con parte de esa promesa, los modelos anteriores de Grok eran más cautelosos en temas políticos. Un estudio incluso encontró que Grok tendía hacia la izquierda en cuestiones como los derechos de las personas trans y programas de diversidad. Musk ha atribuido este comportamiento a los datos de entrenamiento de Grok y ha prometido hacer que el modelo sea más neutral políticamente.


