DeepSeek: La IA de código abierto que desafía a OpenAI

La inteligencia artificial (IA) está viviendo una transformación radical con la irrupción de DeepSeek, una startup china fundada en 2023 que ha captado la atención global con sus innovadores modelos de código abierto. Sus últimas creaciones, DeepSeek R1 y DeepSeek V3, han generado un impacto significativo en la industria tecnológica, desafiando a gigantes como OpenAI y poniendo en jaque el dominio de empresas estadounidenses en el sector de la IA.

El impacto de DeepSeek en la industria tecnológica

El hecho de que DeepSeek haya desarrollado modelos de IA altamente competitivos, pero con un menor consumo de recursos, ha provocado una reacción en los mercados. Nvidia, una de las principales empresas de semiconductores y hardware para IA, sufrió una caída del 17% en sus acciones, lo que representó una pérdida de 600 mil millones de dólares. Esta caída le hizo perder el título de empresa más valiosa del mundo, superada por Apple y Microsoft. Otras empresas tecnológicas también se vieron afectadas, con Alphabet cayendo un 4% y Microsoft un 2%.

A esta incertidumbre en los mercados se sumó la caída del índice Nasdaq en un 3.77%, junto con pérdidas en los futuros del Dow Jones (-1.04%) y el S&P 500 (-2.29%). La volatilidad refleja el temor a que la IA china pueda desplazar a las soluciones estadounidenses en términos de eficiencia y costos.

Imagen de Data Phoenix

Imagen de Data Phoenix

Restricciones tecnológicas y avances de DeepSeek

A pesar de las restricciones impuestas por Estados Unidos para la venta de chips avanzados a empresas chinas, DeepSeek ha logrado avances significativos sin acceso a hardware de última generación. Según el periodista Holger Zschaepitz, la capacidad de DeepSeek para desarrollar modelos eficientes a bajo costo pone en duda las enormes inversiones en infraestructura que han realizado las empresas occidentales en este sector.

¿Qué es DeepSeek?

DeepSeek fue fundada en 2023 por Liang Wenfeng, quien también dirige High-Flyer Capital Management, la única empresa que financia la startup. Su primer modelo fue DeepSeek Coder, un modelo de código abierto especializado en programación, lanzado en noviembre de 2023.

El equipo de DeepSeek está conformado por jóvenes egresados de las mejores universidades de China, con un enfoque claro en la innovación tecnológica. Al no depender de inversores externos, la compañía ha podido desarrollar su tecnología sin presiones financieras, lo que le permite trabajar en proyectos de IA a largo plazo.

Sin embargo, DeepSeek está sujeta a la regulación del Internet en China, lo que significa que su IA no responde a temas sensibles según los criterios del gobierno chino. Por ejemplo, cuando se le pregunta sobre las protestas de la Plaza de Tiananmén de 1989, evita responder, mientras que sí proporciona información sobre la Guerra Civil Española.

DeepSeek R1: IA de razonamiento avanzada

El 20 de noviembre de 2023, DeepSeek presentó una vista previa de DeepSeek R1, y el 20 de enero de 2024 lo lanzó como un modelo de código abierto. Se trata de un modelo de razonamiento avanzado, diseñado para tareas complejas de lógica y matemáticas, superando en ciertos parámetros a GPT-4o de OpenAI.

Principales características de DeepSeek R1

  • Rendimiento superior en métricas clave, como:
    • AIME (eficiencia en modelos de IA).
    • MATH-500 (resolución de problemas matemáticos).
    • SWE-bench Verified (tareas de programación).
  • Capacidad de autoverificación, gracias a su razonamiento en múltiples pasos.
  • Velocidad de respuesta moderada, pero mayor precisión, debido a su enfoque en la planificación anticipada y ejecución de tareas.
  • 671 mil millones de parámetros, con versiones más ligeras de 1,500 millones hasta 70 mil millones, adaptadas para diferentes dispositivos, desde laptops hasta servidores de alto rendimiento.
  • Código abierto en Hugging Face, bajo licencia MIT sin restricciones comerciales.

DeepSeek V3: IA Mixture-of-Experts

Días después del lanzamiento de R1, DeepSeek presentó DeepSeek V3, un modelo de lenguaje basado en la arquitectura Mixture-of-Experts (MoE). Esta tecnología divide las tareas en diferentes módulos especializados, optimizando el rendimiento al utilizar únicamente los expertos necesarios para cada consulta.

Características destacadas de DeepSeek V3

  • Arquitectura MoE: optimiza el procesamiento dividiendo el aprendizaje en múltiples expertos especializados.
  • 671 mil millones de parámetros, con 37 mil millones activados por token.
  • Manejo avanzado de tareas basadas en texto, incluyendo:
    • Codificación.
    • Traducción.
    • Redacción y generación de contenido.
  • Supera modelos como:
    • Llama 3.1 405B.
    • Claude 3.5.
    • GPT-4o en diversos parámetros.
  • Costo de entrenamiento de 5.5 millones de dólares, significativamente menor que el de GPT-4 de OpenAI (80 millones de dólares).
  • Licencia flexible, que permite su descarga, modificación y uso comercial en múltiples aplicaciones.
  • Disponible en: sitio web de DeepSeek, GitHub y su aplicación oficial.

El ascenso de DeepSeek en el mundo de la IA

DeepSeek ha demostrado que es posible desafiar a los gigantes de la IA con modelos de código abierto altamente eficientes y accesibles. Su enfoque en razonamiento avanzado, optimización de recursos y desarrollo sin restricciones comerciales podría marcar un cambio en la industria, ofreciendo alternativas a los modelos propietarios de empresas como OpenAI.

A medida que la IA sigue evolucionando, la capacidad de DeepSeek para competir sin acceso a hardware avanzado genera preguntas sobre el futuro del desarrollo de IA y la eficiencia de las inversiones multimillonarias de Occidente. Con modelos como R1 y V3, esta startup china podría convertirse en un referente clave en la próxima generación de inteligencia artificial.

Artículo original por María Bastero | 27 enero 2025 publicado en Marketing4eCommerce