Mistral 7B Instruct cuantizado

 Perfecto. Te explico cómo puedes usar Mistral 7B Instruct cuantizado (Q4) en tu computadora local (Core i5, 16 GB de RAM) usando Python y la biblioteca llama-cpp-python. Este modelo es excelente para generar resúmenes estructurados como actas de audiencia judicial.


✅ Requisitos

  1. Python 3.9+

  2. Modelo cuantizado de Mistral 7B Instruct (formato GGUF, Q4 o Q5)

  3. Bibliotecas: llama-cpp-python, requests (opcional)


🔹 Paso 1: Instalar dependencias

bash
pip install llama-cpp-python

Si usas Windows y tienes problemas con dependencias, instala con:

bash

pip install llama-cpp-python --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cpu

🔹 Paso 2: Descargar el modelo

Ve a TheBloke/Mistral-7B-Instruct-v0.1-GGUF y descarga el archivo:

  • mistral-7b-instruct-v0.1.Q4_K_M.gguf (versión ligera que funciona en CPU)

Guárdalo en una carpeta, por ejemplo:

bash
./modelos/mistral-7b-instruct-v0.1.Q4_K_M.gguf

🔹 Paso 3: Script en Python para generar el acta de audiencia

python
from llama_cpp import Llama # Cargar el modelo cuantizado llm = Llama( model_path="./modelos/mistral-7b-instruct-v0.1.Q4_K_M.gguf", n_ctx=2048, # contexto máximo por prompt n_threads=4 # ajusta según tus núcleos CPU ) # Transcripción (puede venir de un archivo .txt o directo desde el STT) transcripcion = """ Juez: Buenos días. Inicia la audiencia de control de detención... Defensor: Solicito se declare ilegal la detención... Ministerio Público: Se opone, hubo flagrancia... Juez: Declaro legal la detención... """ # Prompt para generar el acta prompt = f""" Actúa como un secretario judicial. A partir de la siguiente transcripción de una audiencia, redacta un acta clara y estructurada que incluya: 1. Fecha y hora de audiencia (si no está, pon "No especificada"). 2. Participantes (juez, partes, defensores, MP). 3. Solicitudes o incidentes. 4. Resoluciones del juez. 5. Observaciones finales. Transcripción: \"\"\" {transcripcion.strip()} \"\"\" """ # Generar respuesta output = llm(prompt, max_tokens=800, stop=["</s>"]) acta = output["choices"][0]["text"] print("\n📝 Acta generada:\n") print(acta.strip())

🧪 Resultado esperado

El modelo generará algo como:

text
Acta de Audiencia Fecha: No especificada Hora: No especificada Participantes: - Juez: Presente - Ministerio Público: Presente - Defensor: Presente Desarrollo: 1. El juez dio inicio a la audiencia de control de detención. 2. El defensor solicitó la ilegalidad de la detención. 3. El Ministerio Público se opuso, argumentando flagrancia. 4. El juez resolvió declarando legal la detención. Observaciones: Ninguna adicional.

🛠️ Consejo

Puedes mejorar los resultados:

  • Ajustando el prompt para formalizar más el lenguaje.

  • Limpiando previamente la transcripción (quita ruidos, repeticiones).

  • Usando n_gpu_layers=0 para evitar errores si no tienes GPU.


¿Quieres que te ayude con una GUI o una interfaz web simple para subir una transcripción .txt y generar el acta al instante?

Puedo ayudarte a integrar esto con Flask (Python) o Node.js (Express). ¿Cuál prefieres?

Comentarios

Entradas populares de este blog

Los 3 mejores LLMs ligeros y open source para tu caso

editor de texto enriquecido nativo