Iñaki Martín Sorribes

Iñaki Martín
Sorribes

Construyo sistemas de machine learning y NLP en producción.

Co-fundador de Iceberg Datum Analytics y estudiante de Ciencia de Datos en la Universitat de València. Disponible para prácticas a partir de septiembre de 2026.

GitHub LinkedIn imxrtins@gmail.com CV (ES) CV (EN)

Sobre mí

Empecé el grado en la UV en 2023 con la idea de dedicarme a la IA aplicada — no a la investigación pura, sino a productos que resuelven algo concreto. En noviembre de 2025 co-fundé Iceberg Datum Analytics, donde he desarrollado motores de ML y NLP, integraciones con LLMs y arquitecturas en AWS para los productos verticales de la empresa.

En verano de 2026 voy a estar en el IDAL, el laboratorio de Machine Learning de la Universitat de València, en una estancia de investigación. A partir de septiembre busco prácticas como ML / NLP engineer o data scientist en cualquier sector con datos serios — fintech, retail, industrial, salud, energía. Lo que me importa es llevar modelos a producción y trabajar con problemas reales, preferentemente en Valencia o cerca.

Lo que uso

A diario

Python, scikit-learn, XGBoost, SHAP, Pandas, NumPy, FastAPI, Pydantic, pytest, Docker, Git, Claude, Gemini, Ollama, AWS (ECS Fargate, S3, IAM, CloudWatch), HTMX, Tailwind, Leaflet.

También trabajo con

R, SQL, Bash, PyTorch, Transformers, spaCy, Presidio, MongoDB, Streamlit, Power BI, QGIS, rasterio.

Trabajo

Nov 2025
— hoy

Co-fundador · Iceberg Datum Analytics

He desarrollado los motores ML y NLP que componen los productos verticales en sectores clínico (Iceberg Health) y legal (Iceberg Law, anonimización GDPR). Integraciones con LLMs locales y en cloud, despliegue sobre AWS y pilotos activos bajo NDA con clientes.

Verano
2026

Investigador en prácticas · IDAL — UV

Seleccionado para una estancia de investigación en el Intelligent Data Analysis Laboratory, el grupo de ML de la Universitat de València.

2022

Prácticas · Slimbook

Cuatro meses ensamblando hardware y escribiendo scripts en Bash para automatizar el testeo de equipos.

Formación

2023
— 2027

Grado en Ciencia de Datos · Universitat de València

Nota media 7,58 / 10. Matrículas de Honor en Machine Learning y en Probabilidad y Simulación.

2020
— 2022

Grado Superior en Informática · IES Abastos

Administración de Sistemas en Red.

Reconocimientos

2025

Mención de Honor · Concurso de Visualización de Datos · Ayuntamiento de Valencia + ETSE-UV

Proyecto en equipo sobre zonas inundables de la Comunidad Valenciana, en respuesta a la DANA.

Proyectos

  1. 01

    Fraud Detection — PaySim

    público

    Pipeline ML completo sobre 6,3 millones de transacciones de PaySim. Comparativa entre Random Forest, XGBoost y MLP; explicabilidad con SHAP; selección de umbral con criterio económico (€ perdidos vs revisiones manuales) y servicio REST con FastAPI sobre Docker. Recall 99,76 % en test.

    XGBoostSHAPFastAPIDockerpytest
    ver repo →
  2. 02

    Iberia Geo-Alert

    público

    Dashboard real-time de eventos naturales agregando cuatro APIs (USGS, NASA EONET, NASA FIRMS, Sentinel Hub). Al hacer click en un foco de incendio en Iberia se dispara un análisis NBR sobre imágenes Sentinel-2 calculado en el backend y devuelto con la imagen en base64. Todo en un solo feed.

    FastAPISentinel HubLeafletNumPygeospatial
    ver repo →
  3. 03

    GDPR Anonymization Engine

    case study

    Motor de anonimización forense de PDFs legales en español, 100 % on-premise. Combina regex, checksums matemáticos (DNI, IBAN, NSS), NER con BSC-RoBERTa, LLM local Qwen3:8b vía Ollama y OCR. Cero alucinaciones gracias a la prioridad checksum > regex > NER > LLM. Código propietario; el repo documenta la arquitectura.

    NLPOllamaPyMuPDFPresidioGDPR
    ver case study →
  4. 04

    Iceberg Health — Auditoría clínica

    case study

    SaaS de auditoría clínica para pacientes polifarmacéuticos. Un LLM extrae historiales no estructurados a JSON; un motor determinista en Pandas audita contra la base CIMA de la AEMPS (~30 000 fármacos) y detecta interacciones, contraindicaciones y ajustes de dosis. Cero alucinaciones clínicas, audit log trazable. Desplegado en AWS ECS Fargate.

    ClaudeFastAPIHTMXAWS ECShealthtech
    ver case study →

Más cosas en github.com/imartinsorribes.

Contacto

Si estás reclutando o quieres comentar algún proyecto, escríbeme.

email imxrtins@gmail.com

linkedin /in/inaki-martin-sorribes

github @imartinsorribes