Los 3 mejores LLMs ligeros y open source para tu caso

 

 Los 3 mejores LLMs ligeros y open source para tu caso

1. Phi-2 (Microsoft)

  • Tamaño: ~2.7B parámetros.

  • Rendimiento: Excelente comprensión de texto para su tamaño.

  • Ideal para: Tareas de NLP como resumen, clasificación, QA.

  • Requisitos: Funciona bien en CPU (8-16 GB RAM).

  • Uso en Python: transformers + torch o ggml con llama-cpp-python.

  • Ventajas:

    • Entrenado en corpus limpio.

    • Ligero y rápido en CPU.

  • Instalación rápida:

    bash
    pip install transformers torch
    python
    from transformers import AutoTokenizer, AutoModelForCausalLM model = AutoModelForCausalLM.from_pretrained("microsoft/phi-2") tokenizer = AutoTokenizer.from_pretrained("microsoft/phi-2")

2. TinyLlama (1.1B)

  • Tamaño: 1.1B parámetros.

  • Modelo: Basado en arquitectura LLaMA optimizada.

  • Rendimiento: Sorprendentemente bueno en tareas como resumen y chat general.

  • Ventajas:

    • Extremadamente ligero (corre en CPU sin problemas).

    • Entrenamiento reciente, mejor calidad que GPT-2.

  • Integración Node.js/Python: usa llama.cpp + llama-node o llama-cpp-python.

    🧠 Ideal para hacer resúmenes estructurados o actas tipo template.


3. Mistral 7B Instruct (cuantizado Q4 o Q5)

  • Tamaño: 7B, pero puedes usarlo cuantizado en Q4/Q5 para CPU.

  • Ventaja: Mucho mejor que GPT-2/3 en tareas jurídicas y resúmenes complejos.

  • Requisitos: Puede funcionar en CPU con 16 GB RAM usando llama.cpp.

  • Usos: Generar actas completas en formato narrativo con encabezado, participantes y resumen.

  • Herramientas recomendadas:

    • llama-cpp-python (Python).

    • llama-node (Node.js).


🛠️ Herramientas que te recomiendo para ejecutarlos localmente

Python:

  • llama-cpp-python: eficiente, compatible con modelos cuantizados.

    bash
    pip install llama-cpp-python

Node.js:

  • llama-node: ejecuta modelos cuantizados LLaMA/Mistral/TinyLlama.

    bash
    npm install llama-node

🧠 Prompt para generar acta de audiencia judicial

text
Transcribe esta audiencia judicial en un acta estructurada. Incluye: 1. Fecha y hora de la audiencia. 2. Participantes (Juez, partes, abogados). 3. Asuntos tratados. 4. Solicitudes o incidentes. 5. Resoluciones o acuerdos. 6. Conclusión. Transcripción: """ [Texto de la audiencia] """

📌 Resumen final

ModeloTamañoPros principalesIdeal para
Phi-22.7BLigero + precisoResumen simple
TinyLlama1.1BMuy ligeroEstructura tipo acta
Mistral 7B Q47BAlta calidadActa detallada y formal

¿Quieres que te prepare un ejemplo práctico en Python o Node.js con uno de estos modelos para resumir una audiencia?

Comentarios

Entradas populares de este blog

Mistral 7B Instruct cuantizado

editor de texto enriquecido nativo