Lo que aprendimos construyendo herramientas de IA para periodistas (en español y en comunidad)

La Silla Vacía, parte del Innovation Challenge, comparte sus primeros aprendizajes en el desarrollo de su proyecto

Por Karen De la Hoz

En La Silla Vacía hemos seguido de cerca el trabajo de JournalismAI. En 2024 fuimos seleccionados en la JournalismAI Academy for Latin America. Participamos en las versiones en inglés y español del curso Discovery. Somos fans del JournalismAI Festival, hemos estudiado y compartido los reportes liderados por Charlie Beckett — Generating Change (2023) y New Powers, New Responsibilities (2019)—, y también estamos suscritos a la newsletter y conectados a través de la comunidad en Slack.

Así que, cuando se abrió la convocatoria al JournalismAI Innovation Challenge, apoyado por la Google News Initiative, sabíamos que esa era la oportunidad que buscábamos para consolidar aprendizajes, impulsar nuestro laboratorio de uso de IA —creado en enero de 2024— y abordar de forma estructurada un reto tan técnico como humano: construir un hub de herramientas de inteligencia artificial para periodistas en español. ¿El objetivo? Crear soluciones útiles para nuestra redacción y, al mismo tiempo, ofrecerlas como un servicio a otros medios.

Aquí van nuestros principales aprendizajes.

1. v0 ha sido una aliada inesperada

Imagina que tienes un asistente virtual al que le describes con palabras sencillas el diseño que necesita —por ejemplo: "una tienda online de zapatos con colores azul y blanco”—y, en segundos, el asistente te entrega la maqueta funcional de esa página lista para probarse en un navegador. Eso es v0: una herramienta de Vercel (la empresa detrás de Next JS) que usa inteligencia artificial para traducir ideas en componentes reales de sitio web, ahorrándole los pasos de diseñar, programar y montar el resultado. Es como tener un diseñador y un programador trabajando juntos, disponibles 24/7.

La adopción de v0, sugerida por nuestro technical lead y front-end engineer (Iván Montes), se convirtió en el principal catalizador del diseño de nuestro hub: permitió generar mockups y páginas en React / NextJS desplegadas en Vercel usando prompts. Esto redujo el trabajo inicial de semanas a días y permitió la validación temprana de UX. Esta rapidez liberó al equipo de backend para avanzar en APIs y lógica en paralelo, y permitió producir pruebas de concepto para validar con periodistas y editores casi en tiempo real, y prácticamente sin tocar CSS.

El valor añadido radica en que v0 combina generación de código y despliegue en un mismo ecosistema, lo que simplifica la entrega continua y elimina dependencias típicas entre diseño y desarrollo. En resumen, usando v0 aceleramos la construcción de wireframes, los ritmos de los sprints y conseguimos un flujo de trabajo ágil que reduce bloqueos y optimiza la interacción entre producto, desarrollo y redacción.

Lo que dicen nuestros desarrolladores:

“v0 nos ha permitido iterar muchísimo más rápido y organizar el tiempo del equipo porque yo desarrollo en un entorno que no le pega al de Iván; puedo solucionar un error en cinco minutos sin bloquear la producción”. — Pablo Manrique

“Pablo está trabajando; no tiene una dependencia directa de mí y yo estoy trabajando y no tengo una dependencia directa de Pablo. Eso nos redujo bastante el tiempo”. — Iván Montes

2. El fine-tuning nos fine-tuneó a nosotros

Intentamos usar fine-tuning para automatizar la escritura de hilos de Twitter. Y… no funcionó como esperábamos. El modelo repetía trinos, inventaba usuarios de Twitter, ponía hashtags fuera de contexto. Iteramos cuatro veces, ajustamos la base de datos, la ampliamos, la redujimos, la limpiamos, la reestructuramos. Salimos a preguntar a colegas de otros medios y, finalmente, volvimos al prompting.

Pero el recorrido ha valido más que el resultado. Primero, porque hemos entendido cuándo no tiene sentido usar fine-tuning —en tareas abiertas, con muchos estilos y con datos difíciles de limpiar—. Segundo, porque al construir un dataset de entrenamiento, nos hemos obligado a ver nuestros contenidos con nuevos ojos: clasificar, depurar, etiquetar, sistematizar. Y tercero —y quizá lo más importante— porque ese camino nos ha afinado a nosotros como equipo. Hemos salido con mejores prompts, más claridad editorial y un músculo técnico más fuerte.

Lo que dicen nuestro desarrollador backend y yo, la prompt engineer y project manager del proyecto:

“Así no haya funcionado, nos ha aportado mucho haber probado el fine-tuning. El modelo no se fine-tuneó, pero nosotros sí”. — Pablo Manrique

“Crear la base de datos nos ha ayudado a entender mejor cómo mejorar los prompts. Incluso sin usar fine-tuning, tener ese dataset ha sido clave”. — Karen

Ahora usamos prompts más afinados, ejemplos específicos según el tipo de historia, y mantenemos una lógica modular que nos permite ajustar sin volver a entrenar. El fine-tuning no nos dio el resultado que queríamos… pero nos enseñó exactamente lo que necesitábamos saber.

3. Sin feedback no hay iteración

Sabíamos que necesitábamos feedback. Lo que no sabíamos era que necesitaríamos tanto feedback. Y esta ha sido, probablemente, la tarea que más subestimamos al empezar el proyecto.

Gracias a los comentarios de la redacción, hemos podido afinar prompts, mejorar la experiencia de usuario y elevar la calidad de los resultados que entregan nuestras herramientas. Cada iteración ha comenzado con una observación, una duda o una sugerencia de quienes usan el producto en el día a día.

Esto dice nuestro feedback owner (sí, nos inventamos este rol):

“Responder rápido al feedback hizo que vieran el valor de participar. No era información que se perdía en un cajón. Algunos ya preguntan por qué pasan ciertas cosas, cómo funciona la herramienta. Esa curiosidad crea sentido de pertenencia”. Juan Romero

Sistematizar feedback no es glamoroso, pero ha sido lo que ha hecho posible que nuestras herramientas evolucionen junto a quienes las usan. Y hemos probado de todo: formularios estructurados, hojas de cálculo compartidas y —cómo no— audios de WhatsApp que terminamos convirtiendo en data estructurada.

4. Cuando no sabemos, preguntamos. Y cuando nos preguntan, respondemos.

Hemos intercambiado aprendizajes con los amigos de Chequeado, consultado al equipo técnico de Aftonbladet que desarrolló el AI Buffet, una herramienta similar a la que buscamos desarrollar, vamos a eventos de la industria, somos activos en la comunidad de Slack y en foros de internet. Nos gusta trabajar en comunidad.

Varias decisiones clave del proyecto no salieron de un documento interno, sino de una conversación. Por ejemplo, fue en una hackatón donde escuchamos a alguien del equipo de Ojo Público contar que el fine-tuning no les había servido… pero sí una estrategia de prompting modular con ejemplos por tipo de contenido. La adoptamos. Y funcionó.

Esto dice nuestro backend sobre el enfoque que usamos para trabajar con hilos de X:

“La estrategia que terminamos usando nos la recomendó una persona de Ojo Público. Nos dijo: el fine-tuning no nos funcionó, lo que sí nos funcionó fue esto. Y ese ‘esto’ terminó salvando nuestra herramienta.” — Pablo

Después de cada Sprint nos reafirmamos en una idea simple: el periodismo latinoamericano necesita soluciones de IA diseñadas en español y para nuestros contextos. Compartimos estas lecciones con la convicción de que el camino se construye mejor juntos. Y por eso, estamos abiertos a compartir nuestros aprendizajes con quien esté trabajando en proyectos similares para ahorrarles tiempo y frustraciones.

Si te interesa conocer más de nuestro hub cuando esté listo, puedes escribirnos: kdelahoz@lasillavacia.com

Este artículo es parte de una serie que proveerá actualizaciones y aprendizajes de los 35 proyectos del Innovation Challenge de JournalismAI, posible gracias al apoyo de Google News Initiative. Haz click aquí para acceder al resto de los artículos. 

Previous
Previous

What we learned building AI tools for journalists (in Spanish and in community)

Next
Next

What do YOU want to know?