Los 3 mejores LLMs ligeros y open source para tu caso

julio 02, 2025

Los 3 mejores LLMs ligeros y open source para tu caso

1. Phi-2 (Microsoft)

Tamaño: ~2.7B parámetros.
Rendimiento: Excelente comprensión de texto para su tamaño.
Ideal para: Tareas de NLP como resumen, clasificación, QA.
Requisitos: Funciona bien en CPU (8-16 GB RAM).
Uso en Python: transformers + torch o ggml con llama-cpp-python.
Ventajas:
- Entrenado en corpus limpio.
- Ligero y rápido en CPU.

Instalación rápida:

bash
pip install transformers torch

python
from transformers import AutoTokenizer, AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained("microsoft/phi-2")
tokenizer = AutoTokenizer.from_pretrained("microsoft/phi-2")

2. TinyLlama (1.1B)

Tamaño: 1.1B parámetros.
Modelo: Basado en arquitectura LLaMA optimizada.
Rendimiento: Sorprendentemente bueno en tareas como resumen y chat general.
Ventajas:
- Extremadamente ligero (corre en CPU sin problemas).
- Entrenamiento reciente, mejor calidad que GPT-2.
Integración Node.js/Python: usa llama.cpp + llama-node o llama-cpp-python.

🧠 Ideal para hacer resúmenes estructurados o actas tipo template.

3. Mistral 7B Instruct (cuantizado Q4 o Q5)

Tamaño: 7B, pero puedes usarlo cuantizado en Q4/Q5 para CPU.
Ventaja: Mucho mejor que GPT-2/3 en tareas jurídicas y resúmenes complejos.
Requisitos: Puede funcionar en CPU con 16 GB RAM usando llama.cpp.
Usos: Generar actas completas en formato narrativo con encabezado, participantes y resumen.
Herramientas recomendadas:
- llama-cpp-python (Python).
- llama-node (Node.js).

🛠️ Herramientas que te recomiendo para ejecutarlos localmente

Python:

llama-cpp-python: eficiente, compatible con modelos cuantizados.
```
bash
pip install llama-cpp-python
```

Node.js:

llama-node: ejecuta modelos cuantizados LLaMA/Mistral/TinyLlama.
```
bash
npm install llama-node
```

🧠 Prompt para generar acta de audiencia judicial

text
Transcribe esta audiencia judicial en un acta estructurada. Incluye:

1. Fecha y hora de la audiencia.
2. Participantes (Juez, partes, abogados).
3. Asuntos tratados.
4. Solicitudes o incidentes.
5. Resoluciones o acuerdos.
6. Conclusión.

Transcripción:
"""
[Texto de la audiencia]
"""

📌 Resumen final

Modelo	Tamaño	Pros principales	Ideal para
Phi-2	2.7B	Ligero + preciso	Resumen simple
TinyLlama	1.1B	Muy ligero	Estructura tipo acta
Mistral 7B Q4	7B	Alta calidad	Acta detallada y formal

¿Quieres que te prepare un ejemplo práctico en Python o Node.js con uno de estos modelos para resumir una audiencia?

Buscar este blog

examen-ejercicios-saul

Los 3 mejores LLMs ligeros y open source para tu caso

Los 3 mejores LLMs ligeros y open source para tu caso

1. Phi-2 (Microsoft)

2. TinyLlama (1.1B)

3. Mistral 7B Instruct (cuantizado Q4 o Q5)

🛠️ Herramientas que te recomiendo para ejecutarlos localmente

Python:

Node.js:

🧠 Prompt para generar acta de audiencia judicial

📌 Resumen final

Comentarios

Publicar un comentario

Entradas populares de este blog

Mistral 7B Instruct cuantizado

editor de texto enriquecido nativo