Construyo sistemas de machine learning y NLP en producción.
Co-fundador de Iceberg Datum Analytics y estudiante de Ciencia de Datos en la Universitat de València. Disponible para prácticas a partir de septiembre de 2026.
Sobre mí
Empecé el grado en la UV en 2023 con la idea de dedicarme a la IA aplicada — no a la investigación pura, sino a productos que resuelven algo concreto. En noviembre de 2025 co-fundé Iceberg Datum Analytics, donde he desarrollado motores de ML y NLP, integraciones con LLMs y arquitecturas en AWS para los productos verticales de la empresa.
En verano de 2026 voy a estar en el IDAL, el laboratorio de Machine Learning de la Universitat de València, en una estancia de investigación. A partir de septiembre busco prácticas como ML / NLP engineer o data scientist en cualquier sector con datos serios — fintech, retail, industrial, salud, energía. Lo que me importa es llevar modelos a producción y trabajar con problemas reales, preferentemente en Valencia o cerca.
Lo que uso
A diario
Python, scikit-learn, XGBoost, SHAP, Pandas, NumPy, FastAPI, Pydantic, pytest, Docker, Git, Claude, Gemini, Ollama, AWS (ECS Fargate, S3, IAM, CloudWatch), HTMX, Tailwind, Leaflet.
También trabajo con
R, SQL, Bash, PyTorch, Transformers, spaCy, Presidio, MongoDB, Streamlit, Power BI, QGIS, rasterio.
Trabajo
He desarrollado los motores ML y NLP que componen los productos verticales en sectores clínico (Iceberg Health) y legal (Iceberg Law, anonimización GDPR). Integraciones con LLMs locales y en cloud, despliegue sobre AWS y pilotos activos bajo NDA con clientes.
Seleccionado para una estancia de investigación en el Intelligent Data Analysis Laboratory, el grupo de ML de la Universitat de València.
Cuatro meses ensamblando hardware y escribiendo scripts en Bash para automatizar el testeo de equipos.
Formación
Nota media 7,58 / 10. Matrículas de Honor en Machine Learning y en Probabilidad y Simulación.
Administración de Sistemas en Red.
Reconocimientos
Proyecto en equipo sobre zonas inundables de la Comunidad Valenciana, en respuesta a la DANA.
Proyectos
Pipeline ML completo sobre 6,3 millones de transacciones de PaySim. Comparativa entre Random Forest, XGBoost y MLP; explicabilidad con SHAP; selección de umbral con criterio económico (€ perdidos vs revisiones manuales) y servicio REST con FastAPI sobre Docker. Recall 99,76 % en test.
Dashboard real-time de eventos naturales agregando cuatro APIs (USGS, NASA EONET, NASA FIRMS, Sentinel Hub). Al hacer click en un foco de incendio en Iberia se dispara un análisis NBR sobre imágenes Sentinel-2 calculado en el backend y devuelto con la imagen en base64. Todo en un solo feed.
Motor de anonimización forense de PDFs legales en español, 100 % on-premise. Combina regex, checksums matemáticos (DNI, IBAN, NSS), NER con BSC-RoBERTa, LLM local Qwen3:8b vía Ollama y OCR. Cero alucinaciones gracias a la prioridad checksum > regex > NER > LLM. Código propietario; el repo documenta la arquitectura.
SaaS de auditoría clínica para pacientes polifarmacéuticos. Un LLM extrae historiales no estructurados a JSON; un motor determinista en Pandas audita contra la base CIMA de la AEMPS (~30 000 fármacos) y detecta interacciones, contraindicaciones y ajustes de dosis. Cero alucinaciones clínicas, audit log trazable. Desplegado en AWS ECS Fargate.
Más cosas en github.com/imartinsorribes.
Contacto