Después de probar y comparar chatbots de inteligencia artificial (IA) y sus características durante años, he desarrollado una especie de intuición para saber cuándo estos compañeros digitales realmente saben de lo que hablan y cuándo están improvisando. La mayoría de ellos pueden buscar respuestas en línea, lo cual es útil, pero la combinación de búsqueda y IA puede llevar a respuestas sorprendentemente perspicaces (y algunas menos relevantes).
Imagina que tienes un amigo increíblemente informado que entró en coma en octubre de 2024 y acaba de despertar hoy. Podría ser brillante sobre cualquier cosa que sucedió antes de su coma, pero no tendría idea de lo que ha pasado desde entonces. Así es como funciona una IA sin acceso a búsqueda.
Normalmente, me he centrado en un solo chatbot de IA o en comparar dos a la vez, pero la búsqueda es lo suficientemente importante como para ampliar ese esfuerzo. Decidí enfrentar a cuatro de los principales chatbots de IA y sus capacidades de búsqueda: ChatGPT de OpenAI, Gemini de Google, Claude de Anthropic y Perplexity AI.
Las pruebas más reveladoras son aquellas que imitan escenarios de uso real. Así que ideé algunos temas, aleatoricé algunos detalles para las pruebas y luego decidí clasificarlos según sus habilidades de búsqueda.
Comencé con una prueba sobre noticias y eventos actuales. Pensando en el reciente regreso de dos astronautas, pedí a los cuatro chatbots que buscaran y resumieran los puntos clave del último comunicado de prensa de la NASA sobre su próxima misión. Elegí esto porque las noticias espaciales se actualizan regularmente y son lo suficientemente específicas como para que las respuestas vagas sean evidentes. Todos los chatbots comenzaron sus respuestas con un estilo que mantuvieron a lo largo de la prueba.
ChatGPT fue increíblemente breve en su respuesta, con solo tres oraciones, cada una mencionando misiones futuras sin mucho detalle. Gemini optó por una lista con viñetas de diferentes misiones, incluyendo algunas que ya habían concluido y detalles sobre planes futuros. Claude eligió un enfoque más ensayístico sobre las misiones actuales y futuras, aunque no repitió mucho de su investigación, sino que parafraseó bastante.
Para una pregunta como esta, donde solo quería algunos datos clave y planeaba seguir investigando, el enfoque de Perplexity fue mi favorito. Tenía más detalles que ChatGPT, pero estaba organizado en una lista numerada, cada una con su propio enlace de cita.
No puedo criticar a los demás, pero el estilo se ajusta a la pregunta.
En mi segunda prueba, quise algo que desafiara la capacidad de estos sistemas para manejar información específica de ubicación y sensible al tiempo, como cuando planeas un viaje de fin de semana. Pregunté: “¿Cuál es la población actual de Auckland, Nueva Zelanda, y cómo ha crecido desde 1950?”
Curiosamente, hubo una división entre Perplexity y ChatGPT, que dieron la población actual como 1,711,130, y Claude y Gemini, que informaron 130 personas menos en Auckland. Sin embargo, todos coincidieron en la población de 1950. Aún así, en términos de cómo presentaron la información, me gustó la respuesta narrativa de Claude, que incluía varios detalles sobre el cambio poblacional que ChatGPT no tenía y que Gemini y Perplexity convirtieron en listas.
Para mi tercera prueba, quería algo que desafiara la capacidad de los sistemas para manejar información específica y actual. Pregunté: “¿Qué eventos culturales están sucediendo en Vancouver, Columbia Británica, el próximo fin de semana?”
Aquí las respuestas variaron. Perplexity y Claude mantuvieron su precisión y estilo de lista numerada y discusión más conversacional. Sin embargo, Claude se centró más en la amplitud que en la profundidad. Gemini, por su parte, se desvió de sus rivales y esencialmente se negó a responder, ofreciendo estrategias para encontrar eventos en lugar de una lista directa. ChatGPT, en cambio, regresó con un listado sólido de actividades específicas con horarios y ubicaciones.
Para mi cuarta prueba, elegí una de las preguntas más comunes que se le hacen a cualquier IA, que requiere datos en tiempo real: el clima. Pregunté: “¿Cuál es el pronóstico del tiempo para Tokio durante los próximos tres días?” Las respuestas fueron casi el inverso de la consulta sobre Vancouver.
Claude ofreció un resumen útil del clima en diferentes puntos de los próximos tres días, pero eso fue todo. ChatGPT incluyó un pequeño ícono del sol o nubes junto a su resumen, pero me gustó la gráfica de líneas de Perplexity que mostraba la temperatura. Sin embargo, Google Gemini se destacó con su colorido gráfico informativo.
Para mi última prueba, quería ver cómo los motores de búsqueda de IA encontraban múltiples perspectivas sobre un tema y las organizaban en una visión coherente. Pregunté: “Resume las críticas de los profesionales sobre la última película de Paddington.”
Gemini y Perplexity optaron por sus listas habituales, organizadas por los aspectos positivos y negativos de diferentes críticos. ChatGPT escribió su respuesta más larga, pero en un estilo que parecía más adecuado para un estudiante de secundaria. Claude, sin embargo, tuvo la respuesta más fuerte, con un resumen seguido de explicaciones y referencias a lo que dijeron los críticos.
Después de evaluar a los chatbots de IA en mi curso de obstáculos de búsqueda, hay una clara sensación de sus fortalezas y debilidades. Ninguno de ellos es realmente malo, pero si alguien me preguntara cuál debería usar primero o último para buscar información, ya sé cómo responder.
Gemini está en la parte inferior de mi lista, lo cual es sorprendente considerando que Google es conocido por su motor de búsqueda. Su fallo con la programación de eventos me decepcionó, a pesar de su buen rendimiento en otros aspectos.
Otro hallazgo sorprendente es que ChatGPT ocupa el tercer lugar. Es el chatbot de IA que más uso, pero su brevedad, que normalmente aprecio, se sintió limitante en el contexto de búsqueda.
Perplexity, por otro lado, presentó listas numeradas claras, aunque a veces parecía demasiado ansioso por que hiciera clic en los enlaces en lugar de ofrecer la información directamente.
No esperaba que Claude estuviera en la parte superior de esta lista. Aunque siempre lo consideré un buen chatbot, sentí que era un competidor menor. Sin embargo, durante esta prueba, esa sensación desapareció.
Los asistentes de IA son herramientas, no competidores en un reality show donde solo uno puede ganar. Diferentes tareas requieren diferentes capacidades. En última instancia, cualquiera de los cuatro chatbots de IA y sus funciones de búsqueda podría ser útil, pero si estás dispuesto a pagar $20 al mes por Claude Pro y acceder a sus capacidades de búsqueda, esa sería la opción que te recomendaría.


