# Plan de mejora del Buscador 1 (Multisearch) Documento técnico para el desarrollador. Basado en el análisis comparativo entre el Buscador 1 (Multisearch) y el Buscador 2 sobre los boletines del 11-05-2026, categorías Deporte e Informática. --- ## 1. Resumen ejecutivo El Buscador 1 tiene mejor arquitectura que el Buscador 2 (indica el patrón que disparó cada coincidencia, permite marcar correcto/falso positivo, formato de patrón legible). Pero pierde por dos motivos: 1. **Cobertura geográfica**: no cubre BOCM Madrid ni BOP Cádiz, y eso le cuesta ofertas reales todos los días. 2. **Diccionario insuficiente**: especialmente en Informática (15 patrones, contra ~60 del Buscador 2). Hoy ha encontrado 4 coincidencias en todo el día porque sus patrones son demasiado específicos. A la vez, el Buscador 1 hace bien lo que el 2 hace mal: no se ahoga en falsos positivos. La estrategia es **ampliar diccionario y cobertura sin importar el ruido del Buscador 2** — añadimos lo bueno y bloqueamos los imanes de falsos positivos con reglas de exclusión. Las cinco intervenciones, por orden de impacto: 1. **Deduplicar coincidencias** dentro del mismo boletín del día (el mayor problema visible de la versión actual: la convocatoria de socorrista de BOP Jaén apareció 12 veces). 2. **Añadir BOCM Madrid y BOP Cádiz** a la cobertura. 3. **Ampliar diccionario** con los patrones del Buscador 2 que faltan, sobre todo en Informática. 4. **Añadir reglas de exclusión** que penalicen contextos típicos de falso positivo (subvenciones, presupuestos, composición de tribunal, nombres de calle, códigos CNAE, licitaciones públicas, convenios). 5. **Confirmar ejecución diaria 7 días/semana** con detección correcta de "boletín no publicado hoy" vs "boletín no cubierto". --- ## 2. Problemas detectados en la versión actual | # | Problema | Evidencia (11-05-2026) | Impacto | |---|---|---|---| | P1 | Duplicación masiva del mismo registro | BOP Jaén socorrista: 12 hits | Ruido alto | | P2 | No cubre BOCM Madrid | 0 hits en Madrid; el B2 captó coordinador/a deportes, TAG técnico de deportes, etc. | Ofertas perdidas | | P3 | No cubre BOP Cádiz | Mismo caso | Ofertas perdidas | | P4 | Diccionario corto en Informática (15 patrones) | 4 hits totales; perdió oferta de operador/a técnico/a de mantenimiento informático en BOP Ciudad Real | Recall muy bajo | | P5 | Diccionario incompleto en Deporte | Le faltan: oficial de deportes, gestor/responsable/jefe de deportes, gestión deportiva, técnico de gestión deportiva, encargado de instalaciones deportivas, variantes catalanas | Recall medio | | P6 | Patrones que disparan falsos positivos frecuentes | `esport / esports` aislado (DOGV: conselleria; BOIB: oferta de ordenanza) | Precisión | | P7 | `tecnic/o/a deportiv/o/a` dispara en "composición de comisión de valoración" | 4 hits seguidos en BOCCE Ceuta, todos FP | Precisión | | P8 | `socorrista` dispara en plantillas con plazas a 0 | BOP Cáceres, BOP Badajoz | Confianza baja, no FP | | P9 | OCR de las páginas finales solo capta "Descargar PDF" sin contexto | Páginas 17-27 del PDF de salida | Difícil revisar | | P10 | Email no diferencia "sin publicación hoy" de "sin coincidencias" | Domingos puede haber 0 hits y no se sabe por qué | Operativo | --- ## 3. Mejoras propuestas ### 3.1 Deduplicación inteligente (P1) **Objetivo**: que cada oferta única aparezca una sola vez, aunque el patrón coincida en varias páginas del PDF del boletín. **Algoritmo propuesto** (por orden de preferencia, parar al primero que aplique): 1. **Detección por código oficial**. Si el fragmento contiene un identificador del tipo `bop-XXX-2026-NNNNNN`, `cve-num. de registre: 2026NNNNNNNN`, `bop-2026-NNNN`, `BOCM-NNNN/26`, `(NN/N.NNN/26)`, `cve-dogc-b-NNNNNNNN-2026`, etc., usar ese código como **identificador único de la oferta**. 2. **Detección por similitud de texto**. Si dos hits del mismo boletín, mismo día, comparten un fragmento de texto con similaridad ≥ 85 % (usar Jaccard sobre n-gramas de 5 palabras, o ratio de SequenceMatcher), tratarlos como duplicados. 3. **Detección por ventana de páginas**. Si dos hits del mismo boletín caen en páginas consecutivas (±2 páginas) y disparan el mismo patrón sobre texto que se solapa ≥ 50 %, son duplicados (caso típico de OCR partiendo una misma sección entre páginas). **Presentación del registro deduplicado**: ``` BOP Jaén — Socorrista para piscina municipal Santiago-Pontones [código: bop-2026-2167] Patrón coincidente: socorrista (resaltado en amarillo en el texto) Coincidencias agrupadas: 12 menciones en páginas 23, 24, 26, 27 [Fragmento más representativo, ~300 caracteres del primer hit] [Botón: Descargar PDF] [Botón: Coincidencia correcta] [Botón: Falso positivo] ``` **Reglas de visualización**: - Mostrar **un solo registro** por oferta única. - **Resaltar** el patrón coincidente dentro del fragmento (negrita + color de fondo) — esto ya es accesible y permite revisión visual rápida. - Si dos patrones distintos coinciden con la misma oferta, indicarlos los dos (ej. "Patrones: socorrista, monitor/a deportiv/o/a"). - Si hay duda en la deduplicación (similitud entre 70 % y 85 %), mostrar ambos y marcarlos con un icono de "posible duplicado". ### 3.2 Ampliación de cobertura geográfica (P2, P3) Añadir a la lista de boletines del Buscador 1: - **BOCM** — Boletín Oficial de la Comunidad de Madrid (impacto alto: muchas ofertas en municipios grandes). - **BOP Cádiz** — Boletín Oficial de la Provincia de Cádiz. Si es viable en paralelo, ir cerrando estos otros que ahora figuran como "no disponibles": Almería, Córdoba, Huelva, Málaga (zona andaluza), Castellón (zona valenciana), Gerona, Lleida, Tarragona (resto de catalanas), Zaragoza, Tenerife, Albacete, Cuenca, Guadalajara, Valladolid, Orense, Melilla. **Sin perder lo que ya tenemos**: el Buscador 2 ha perdido BOP Toledo, que sí estaba en el 1. Mantenerlo. ### 3.3 Ampliación del diccionario de patrones (P4, P5) Ver las listas exactas en la sección 4 de este documento. Notas de diseño: - Mantener la sintaxis actual con barras (`monitor/a deportiv/o/a`) — es legible para el equipo y se compila a regex sin problema. - No añadir patrones genéricos sin contexto (`informatic/o/a` solo, `esport` solo, `programador/a` solo). Los `[oa]` aislados del Buscador 2 son lo que le mete 83 falsos positivos en DOE Extremadura. - Cuando el patrón sea ambiguo por sí mismo (ej. `desarrollador/a`), exigir proximidad con palabras-ancla (ver sección 3.4). ### 3.4 Reglas de exclusión y scoring de confianza (P6, P7, P8) **Sistema de tres niveles de confianza por coincidencia**: - **ALTA** (verde) — el fragmento contiene, en una ventana de ±300 caracteres alrededor del patrón, alguna de estas **palabras-ancla de convocatoria**: `convocatoria`, `concurso oposici[óo]n`, `oposici[óo]n libre`, `bases reguladoras`, `plaza vacante`, `selecci[óo]n de personal`, `bolsa de trabajo`, `bolsa de empleo`, `OEP`, `oferta de empleo p[úu]blico`, `lista de admitidos`, `tribunal calificador`, `presentaci[óo]n de solicitudes`, `provisi[óo]n del puesto`, `aprobada la lista`, `nombramiento`, `convocatori[ae]`. - **MEDIA** (amarillo) — el fragmento contiene palabras-ancla de **plantilla orgánica o RPT**: `plantilla de personal`, `relaci[óo]n de puestos de trabajo`, `RPT`, `plazas vacantes`, `n[úu]mero de plazas`, `subgrupo`, `cd:` (nivel de complemento de destino), patrones tabulares tipo `a1 26 1` o `c1 18 1`. Útil informativo, pero no es una convocatoria. - **BAJA** (rojo, marcar como "posible FP") — el fragmento contiene cualquiera de estas **palabras-ancla de exclusión**: - `subvenci[óo]n`, `ayuda econ[óo]mica`, `premio a`, `convenio con`, `transferencia[s]? corriente[s]?`, `presupuesto`, `partida presupuestaria`, `capítulo \d`. - `composici[óo]n del tribunal`, `composici[óo]n de la comisi[óo]n`, `comisi[óo]n de valoraci[óo]n`, `vocal[es]?`, `secretari[oa] del tribunal` — si el patrón cae **dentro** de la lista de miembros. - `consejer[íi]a de educaci[óo]n, cultura y deporte[s]?`, `delegaci[óo]n provincial de educaci[óo]n, cultura y deporte[s]?` — sin ninguna palabra-ancla de convocatoria cerca. - `avenida`, `calle`, `plaza` + `del deporte`/`dels esports` → nombre de calle. - Secuencias CNAE: `\d{2}\.\d{2}` + descripción industrial. - `licitaci[óo]n`, `contrato de servicios`, `CPV`, `pliego de cláusulas administrativas` → contratación a empresa, no empleo público. - `ciclo formativo`, `grado medio`, `grado superior`, `m[óo]dulo profesional`, `curso de especializaci[óo]n` → oferta educativa, no empleo. - `convenio de teletrabajo`, `medios inform[áa]ticos`, `mobiliario`, `terminales inform[áa]ticos` en contexto sindical o de medios técnicos. - `protocolo t[ée]cnico` + `transporte` (especialmente DOE Extremadura). - Plantilla con `0 vacantes` o número de plazas explícitamente 0 → MEDIA o BAJA, no ALTA. **Aplicación**: - Cada coincidencia se etiqueta con un nivel. - En el email diario, **mostrar todas las ALTA y MEDIA arriba**, y las BAJA agrupadas al final bajo un desplegable "Posibles falsos positivos (revisar)". - Los botones "Coincidencia correcta / Falso positivo" siguen estando en todas — los datos que generen alimentan el ajuste de los patrones-ancla y de exclusión (ver sección 7). ### 3.5 Programación diaria con fines de semana (P10) Confirmar/ajustar: - Cron de ejecución: **diaria, de lunes a domingo**, una vez al día (sugerido: 18:00–19:00 hora peninsular para captar los boletines publicados durante el día). - En sábados y domingos muchos BOP no publican. El sistema debe distinguir tres estados por boletín y por día: - **No cubierto** (no está en la lista del buscador): hoy ej. Madrid, Cádiz. Hasta que se añada, etiquetar como tal. - **No publicado hoy** (cubierto, pero la web del boletín no ha publicado nada en esa fecha): habitual en BOP los fines de semana y festivos. Etiquetar `Sin publicación en la fecha`. - **Publicado sin coincidencias**: el boletín se ha procesado y ningún patrón ha coincidido. Etiquetar `Sin coincidencias hoy`. - En el cuerpo del email, si todos los boletines de una jornada están en los dos primeros estados, indicarlo en el encabezado: ``` Resumen del domingo 17-05-2026. Hoy es domingo: 28 boletines no publican los fines de semana. Procesados: 12 boletines. Coincidencias: 3. ``` --- ## 4. Listas exactas de patrones ### 4.1 Patrones para Deporte **Patrones a MANTENER** (ya están en Buscador 1): ``` monitor/a deportiv/o/a monitor/a de deportes monitor/a tiempo libre coordinador/a deportiv/o/a coordinador/a de deportes preparador/a fisic/o/a preparador fisico deportivo entrenador/a deportiv/o/a entrenador personal gerente deportiv/o/a director/a deportiv/o/a educador/a deportiv/o/a tecnic/o/a deportiv/o/a tecnic/o/a de deportes tecnic/o/a actividad fisic/o/a tecnic/o/a educacion fisica auxiliar deportiv/o/a auxiliar de deportes auxiliar complejo deportivo operari/o/a instalaciones deportivas mantenedor/a instalaciones deportivas animador/a deportiv/o/a dinamizador/a deportiv/o/a socorrista monitor esportiu coordinador esportiu tecnic esportiu oferta empleo deporte bolsa de empleo deportiva servicio de deportes concejalia de deportes delegacion de deportes patronato municipal de deportes instituto municipal de deportes fundacion de deportes actividad fisica y deporte ``` **Patrones a AÑADIR** (del Buscador 2, validados como útiles): ``` oficial de deportes gestor/a deportiv/o/a responsable de deportes jefe/a de deportes jefe de servicio de deportes gestion deportiva tecnic/o/a de actividades deportivas tecnic/o/a de actividad fisic/o/a y deporte/s tecnic/o/a de gestion deportiv/o/a tecnic/o/a superior deportiv/o/a servicio municipal de deportes fundacion deportiv/o/a municipal director/a de instalaciones deportivas mantenimiento de instalaciones deportivas auxiliar de instalaciones deportivas encargad/o/a de instalaciones deportivas encargad/o/a deportiv/o/a encargad/o/a de deportes responsable de instalaciones deportivas animador/a sociodeportiv/o/a dinamizador/a sociodeportiv/o/a entrenadors esportiu animador esportiu gerent esportiu instalacions esportives patronat esport patronat municipal d'esports institut municipal d'esports plaça d'esport plaça monitor esportiu activitat fisica imdeco patronato municipal de deportes de instituto deport/iv/o/a municipal fundacion deport/iv/o/a municipal ``` **Patrones a ELIMINAR o ACOTAR** (causan demasiados FP en su forma actual): - `esport / esports` aislado → **eliminar**. Sustituir por los específicos: `monitor esportiu`, `tecnic esportiu`, `coordinador esportiu`, `instalacions esportives`, `patronat esport`, `plaça d'esport`. Como refuerzo, mantener un patrón `esport[s]?` pero **solo** si dispara dentro de proximidad con palabras-ancla de convocatoria (ver 3.4). - `imd` aislado → **eliminar**. Sustituir por `imd ` con espacio Y proximidad con `convocatoria/oposici[óo]n/bolsa/plaza`, o por `imdeco`, `IMD de [ciudad]`. ### 4.2 Patrones para Informática **Patrones a MANTENER** (ya están en Buscador 1): ``` ingeniero/a informatic/o/a ingeniero/a técnico/a informática tecnico/a informatic/o/a tecnico/a medio informatica tecnico/a superior informatica auxiliar tecnico/a informatica tecnic/a auxiliar de informatica administrador/a de sistemas tecnico/a de soporte operador/a informatica oposiciones informatica responsable informatica servicio de informatica area de informatica ``` **Patrón a ACOTAR**: - `desarrollador/a` → mantener, pero solo dispara como ALTA si está en proximidad con palabras-ancla de convocatoria O junto a `aplicaciones`, `software`, `web`, `frontend`, `backend`, `de aplicaciones`. Si no, BAJA. **Patrones a AÑADIR** (del Buscador 2, ampliando bastante el diccionario): ``` programador/a analista analista programador/a analista de sistemas analista de aplicaciones arquitect/o/a de sistemas ingenier/o/a de sistemas tecnic/o/a de sistemas tecnic/o/a de redes tecnic/o/a de comunicaciones tecnic/o/a TIC soporte tecnico informatico mantenimiento informatic/o/a operador/a de equipos informaticos operador/a de sistemas desarrollador/a de aplicaciones desarrollador/a de software desarrollador/a web administrador/a de base/s de datos administracion de base/s de datos administrador/a de redes gestor/a de proyecto/s TI jefe/a de proyecto/s TI gestion de proyecto/s TI concurso TIC estabilizacion TIC oferta TIC puesto TIC provision TIC bolsa de informatica plaza informatic/o/a plaza de informatic/o/a perfil informatic/o/a jefe/a informatic/o/a director/a informatic/o/a director/a de sistemas funcionari/o/a informatic/o/a interin/o/a informatic/o/a oficial informatic/o/a bases informatica convocatoria informatica especialidad informatica lista informatica OEP informatica cientific/o/a de datos especialista en ciberseguridad auxiliar tècnic d'informàtica tècnic/a d'informàtica maestro/a de informatica licenciad/o/a en informatica ``` **Patrones NO añadir** (los del Buscador 2 que disparan masivos FP): - `informatic[oa]` aislado. - `tecnologias informacion` (la inmensa mayoría son menciones de "TIC" en convenios y protocolos, no ofertas). - `virtualizacion`, `computacion nube`, `ofimatica avanzada` por sí solos (raramente son ofertas — más bien temarios y CPV de licitaciones). --- ## 5. Reglas de exclusión / antifraude (resumen operativo) Implementarlas como **post-filtro** después de que dispare un patrón. Cada regla rebaja la confianza: | Regla | Si encuentra... | Efecto | |---|---|---| | R1 | `subvenci[óo]n` / `ayuda` / `premio` / `convenio` / `transferencia[s]?` / `presupuesto` / `partida` / `cap[íi]tulo \d` en ±300 chars del patrón, y sin palabra-ancla de convocatoria | BAJA | | R2 | `composici[óo]n del tribunal` / `comisi[óo]n de valoraci[óo]n` / `vocal/es` en ±200 chars **antes** del patrón | BAJA | | R3 | `consejer[íi]a/delegaci[óo]n provincial de educaci[óo]n, cultura y deporte[s]?` sin palabra-ancla de convocatoria | BAJA | | R4 | `avenida` / `calle` / `plaza` / `c\.` justo antes de la coincidencia | BAJA (nombre de calle) | | R5 | Patrón CNAE `\d{2}\.\d{2}` + descripción industrial | BAJA | | R6 | `licitaci[óo]n` / `contrato de servicios` / `pliego` / `CPV` / `código de procedimiento` | BAJA (contrato a empresa) | | R7 | `ciclo formativo` / `grado medio` / `grado superior` / `m[óo]dulo profesional` / `curso de especializaci[óo]n` | BAJA (oferta educativa) | | R8 | `protocolo t[ée]cnico` + `transporte` / `tarjeta` (caso DOE Extremadura) | BAJA | | R9 | `medios inform[áa]ticos` / `mobiliario inform[áa]tico` / `terminales inform[áa]ticos` en contexto de equipamiento | BAJA | | R10 | Plantilla con `0` en columna de vacantes para esa categoría | MEDIA (informativo) | | R11 | Palabra-ancla de convocatoria en ±300 chars del patrón | ALTA | | R12 | Palabra-ancla de plantilla/RPT en ±300 chars y no aplica R1-R10 | MEDIA | Orden de evaluación: R11 (ALTA) > R1-R9 (BAJA) > R10 (MEDIA) > R12 (MEDIA) > por defecto MEDIA. --- ## 6. Formato de salida propuesto ### 6.1 Email diario ``` Asunto: Resumen Multisearch — Deporte — 11-05-2026 (8 ofertas, 3 plantillas) Encabezado: - Fecha: lunes 11-05-2026 - Boletines procesados: 38 de 45 - Boletines sin publicación: 0 - Boletines no cubiertos: 7 (ver al final) - Coincidencias ALTA: 8 - Coincidencias MEDIA (plantillas): 3 - Coincidencias BAJA (revisar): 14 Ofertas (ALTA): [bloque resaltado verde] ───────────────────────────────────── BOP Jaén — Socorrista (12 menciones agrupadas) Patrón coincidente: socorrista Ayuntamiento de Santiago-Pontones · Concurso de méritos · 2 plazas Páginas: 23, 24, 26, 27 · Código: bop-2026-2167 [Descargar PDF] [Correcta] [Falso positivo] ───────────────────────────────────── BOPB Barcelona — Monitor socorrista (pm-ms-03 y pm-ms-04) ... Plantillas (MEDIA): [bloque amarillo, contraído por defecto] ───────────────────────────────────── BOP Granada — Plantilla pág. 33 (técnico deportivo a2, 1 plaza, 0 vacantes) ... Posibles falsos positivos (BAJA): [bloque rojo, contraído por defecto] ───────────────────────────────────── BOCCE Ceuta — "comisión de valoración: tecnico deportivo del icd" Regla aplicada: R2 (composición de tribunal) ... Boletines no cubiertos por el sistema: Madrid (BOCM), Cádiz, Almería, Córdoba, Huelva, Málaga, Castellón, Gerona, Lleida, Tarragona, Zaragoza, Tenerife, Albacete, Cuenca, Guadalajara, Valladolid, Orense, Melilla. ``` ### 6.2 Resaltado del patrón dentro del fragmento En el HTML del email, envolver el match con ``: ```html

... convocatoria publica para la provision de dos puestos vacantes de socorrista para la piscina municipal ...

``` ### 6.3 Botones de feedback Mantener los 3 botones existentes (Descargar PDF, Coincidencia correcta, Falso positivo). Cuando el usuario pulse "Falso positivo" en una coincidencia, el sistema debe registrar: - Patrón disparado. - Fragmento completo (±300 chars). - Boletín y página. - Reglas de exclusión que se evaluaron y resultado. Esto alimenta el ajuste manual posterior del diccionario y de las reglas de exclusión. --- ## 7. Prompt / briefing para el desarrollador Texto listo para pasar: > Hola, te paso las mejoras a aplicar al Buscador 1 (Multisearch) sobre la > base de un análisis comparativo con el otro buscador. Resumen rápido: > > El Buscador 1 va corto en cobertura (faltan Madrid y Cádiz) y en > diccionario (sobre todo Informática, solo 15 patrones), y duplica muchas > coincidencias dentro del mismo boletín. La arquitectura es buena: no > tocamos la sintaxis de patrones, ni los botones de feedback, ni el formato > general del email. Trabajamos sobre cinco frentes: > > 1. **Deduplicar**. Cuando un mismo registro de oferta aparece en varias > páginas del PDF de un boletín (caso típico: la convocatoria de > socorrista de Jaén que hoy ha aparecido 12 veces), agruparlo en un > único bloque. Algoritmo: usar el código CVE del boletín (`bop-2026-NNNN`, > `cve-num. de registre: …`, etc.) como ID de oferta. Si no hay código, > similaridad de texto ≥ 85 % (SequenceMatcher o Jaccard). Mostrar el > fragmento más representativo y debajo "Aparece N veces en páginas …". > Resaltar el patrón coincidente con `` (fondo amarillo claro). > > 2. **Añadir** BOCM (Madrid) y BOP Cádiz a la lista de boletines > procesados. Sin tocar los que ya están. > > 3. **Ampliar diccionario**: en el documento `mejoras_buscador_multisearch.md`, > sección 4, tienes las listas exactas de patrones a añadir, mantener y > quitar para Deporte e Informática. Ojo: NO añadir patrones genéricos > como `informatic[oa]` aislado o `esport` aislado — el otro buscador los > usa y le mete decenas de falsos positivos. Acotar `desarrollador/a` y > `esport[s]?` con proximidad a palabras-ancla de convocatoria. > > 4. **Sistema de confianza ALTA/MEDIA/BAJA**: una coincidencia es ALTA si > dentro de ±300 caracteres aparece alguna palabra-ancla del tipo > "convocatoria", "concurso oposición", "bases reguladoras", "plaza > vacante", "bolsa de trabajo", "OEP", "tribunal calificador", > "presentación de solicitudes". Es BAJA si está cerca de "subvención", > "ayuda", "premio", "convenio", "transferencia", "presupuesto", > "composición de la comisión", "consejería de educación cultura y > deportes" sin nada más, nombre de calle ("avenida dels esports"), > código CNAE, licitación/CPV/pliego, ciclo formativo/grado, protocolo > técnico de transporte. Lista completa con todas las reglas en la > sección 5 del documento. Las ALTA van arriba en el email, las BAJA > van plegadas al final bajo "Posibles falsos positivos (revisar)". > > 5. **Ejecución diaria 7 días/semana**: confirmar que el cron corre también > sábados y domingos. En el email del fin de semana, diferenciar tres > estados por boletín: "no cubierto", "sin publicación en la fecha" > (típico en BOP los findes) y "sin coincidencias hoy". El email debe > aclarar cuántos boletines de cada tipo hay, para no parecer un fallo. > > Los botones existentes ("Coincidencia correcta", "Falso positivo") > siguen igual, pero el clic en "Falso positivo" ahora debe guardar también > el patrón disparado, el fragmento, el boletín y las reglas de exclusión > que se evaluaron. Lo usamos luego para ajustar el diccionario. > > Test de aceptación con el día 11-05-2026 (lo tengo guardado de la > comparación): el resultado debería tener entre 12 y 18 ofertas ALTA en > Deporte (incluyendo BOP Jaén socorrista una sola vez, BOCM Madrid > coordinador/a deportes, BOP Burgos jefe instituto provincial deporte, BON > Navarra operario instalaciones deportivas Huarte, BOP Alicante técnico > medio en deportes Santa Pola, BOP Toledo valoración titulaciones AFD, > BOPB Barcelona monitor socorrista pm-ms-03 y pm-ms-04). Y entre 10 y 18 > en Informática (incluyendo BOP Ciudad Real operador/a técnico/a > mantenimiento informático, DOGC pág 286 auxiliar tècnic d'informàtica, > BOCCE Ceuta plantilla ingeniero informático). Si el resultado se > dispara por encima de 40 hits en una sola categoría, hay que revisar > qué patrón está abriendo demasiado el grifo. --- ## 8. Resumen de qué se incorpora del Buscador 2 al 1 Para que quede claro qué cogemos y qué dejamos: **Se incorpora:** - Cobertura de **BOCM Madrid** y **BOP Cádiz**. - ~30 patrones adicionales en Deporte (oficial de deportes, gestor/jefe/responsable deportes, gestión deportiva, técnico de gestión deportiva, encargado de instalaciones, variantes catalanas amplias, imdeco…). - ~35 patrones adicionales en Informática (programador, analista, técnico sistemas/redes/comunicaciones/TIC, mantenimiento informático, desarrollador aplicaciones/software, administrador BBDD/redes, gestor/jefe proyectos TI, concurso/estabilización/oferta TIC, plaza/perfil/jefe/director informático, funcionario/interino/oficial informático, científico de datos, especialista ciberseguridad, variantes catalanas…). **No se incorpora** (porque genera más ruido del que aporta): - Patrones genéricos sueltos del tipo `informatic[oa]`, `esport[s]`, `tecnologias informacion`, `desarrollador` sin contexto. Demostradamente son la causa del >75 % de falsos positivos en Informática del Buscador 2. - Formato regex `[oa]?` / `[a]?` del Buscador 2. Mantenemos la sintaxis con barras del Buscador 1 (más legible, mismo poder expresivo). - Ausencia de marcado de patrón disparado. El Buscador 1 ya lo tiene y es una de sus mejores características — la mantenemos. --- ## 9. Métricas de éxito (a medir tras desplegar) Comparando con la versión actual del Buscador 1, sobre 5 días laborables y 2 fines de semana: | Métrica | Línea base actual | Objetivo | |---|---|---| | Ofertas ALTA / día (Deporte) | 6-10 | 12-18 | | Ofertas ALTA / día (Informática) | 0-4 | 8-15 | | Falsos positivos / día (Deporte) | 8-12 | < 5 | | Falsos positivos / día (Informática) | 1-2 | < 3 | | Duplicados por oferta | hasta 12 | 1 | | Boletines cubiertos | 27 | 29 (+ Madrid, Cádiz) | | Ratio FP / total | 25-30 % | < 15 % | Si tras dos semanas hay desviaciones, revisar los registros de "Falso positivo" marcados por los usuarios y ajustar el diccionario o las reglas de exclusión.