refactor: extract payload serialization helpers into store_serialization

Move submission/evidence payload builders, provider-state derivation, UI<->domain evidence mapping, weak-label handling, and id/label/image helpers into store_serialization (depends only on stdlib + domain + url/text helpers, no store coupling). Behavior-preserving; imported back into sqlite_store. 3992 -> 3613 lines.
2026-06-20 21:24:58 +09:00 · 2026-06-20 21:24:58 +09:00 · 8e53139029
commit 8e53139029
parent e3bc99e6b9
2 changed files with 447 additions and 402 deletions
--- a/src/rights_filter/server/sqlite_store.py
+++ b/src/rights_filter/server/sqlite_store.py
@ -4,7 +4,6 @@ import base64
 import hashlib
 import html
 import json
-import mimetypes
 import os
 import re
 import shutil
@ -13,7 +12,6 @@ import threading
 from contextlib import contextmanager
 from dataclasses import replace
 from datetime import datetime
-from io import BytesIO
 from pathlib import Path
 from typing import Any, Callable
 from urllib.parse import urlparse
@ -31,7 +29,6 @@ from rights_filter.domain.records import (
    InMemoryRightsFilterRepository,
    KnowledgeBaseEntry,
    KnowledgeEntryType,
-    KnowledgeProvenance,
 )
 from rights_filter.integrations.cloud_vision_web_detection import (
    CloudVisionWebDetectionAdapter,
@ -60,6 +57,29 @@ from rights_filter.server.store_schema import (
    _ensure_schema_version,
    _ensure_typed_columns,
 )
+from rights_filter.server.store_serialization import (
+    _domain_evidence_from_ui,
+    _evidence_id,
+    _evidence_matches_provider,
+    _evidence_payload,
+    _external_provider_ids,
+    _external_provider_state_for_submission,
+    _face_crop_web_evidence,
+    _google_weak_label_title,
+    _image_size_from_bytes,
+    _image_suffix_from_url,
+    _is_google_weak_label_payload,
+    _knowledge_provenance,
+    _now_label,
+    _provider_item_failed,
+    _provider_item_has_result,
+    _safe_filename,
+    _safe_image_suffix,
+    _stable_id,
+    _strip_html,
+    _submission_payload,
+    _timestamp_id,
+)
 from rights_filter.server.store_text import _text_list, _unique_texts
 from rights_filter.server.store_url_utils import (
    _decoded_nested_url,
@ -3591,402 +3611,3 @@ def _knowledge_entry_type(value: str) -> KnowledgeEntryType:
        return KnowledgeEntryType.OTHER


-def _knowledge_provenance(value: str) -> KnowledgeProvenance:
-    if value == "automatic":
-        return KnowledgeProvenance.AUTOMATIC_REJECTION
-    try:
-        return KnowledgeProvenance(value)
-    except ValueError:
-        return KnowledgeProvenance.EXTERNAL_EVIDENCE
-
-
-def _safe_image_suffix(filename: str, content_type: str) -> str:
-    suffix = Path(filename).suffix.lower()
-    if not suffix and content_type:
-        suffix = mimetypes.guess_extension(content_type.split(";", 1)[0].strip()) or ""
-    if suffix == ".jpe":
-        suffix = ".jpg"
-    if suffix not in SUPPORTED_IMAGE_SUFFIXES:
-        raise ValueError("unsupported knowledge image type")
-    return suffix
-
-
-def _safe_filename(value: str) -> str:
-    return re.sub(r"[^A-Za-z0-9_.-]+", "-", value).strip(".-")
-
-
-def _image_size_from_bytes(content: bytes) -> tuple[int, int]:
-    try:
-        from PIL import Image
-
-        with Image.open(BytesIO(content)) as image:
-            return int(image.width), int(image.height)
-    except Exception:
-        return 1, 1
-
-
-def _stable_id(prefix: str, *parts: str) -> str:
-    digest = hashlib.sha1("\x1f".join(parts).encode("utf-8")).hexdigest()[:20]
-    return f"{prefix}-{digest}"
-
-
-def _strip_html(value: str) -> str:
-    without_tags = re.sub(r"<[^>]+>", "", value)
-    return " ".join(without_tags.split())
-
-
-def _image_suffix_from_url(url: str) -> str:
-    suffix = Path(urlparse(url).path).suffix.lower()
-    if suffix == ".jpe":
-        suffix = ".jpg"
-    if suffix not in SUPPORTED_IMAGE_SUFFIXES:
-        return ".jpg"
-    return suffix
-
-
-def _submission_payload(
-    record: dict[str, Any],
-    score: int,
-    band: str,
-    reasons: list[str],
-    provider_payloads: dict[str, dict[str, Any]] | None = None,
-) -> dict[str, Any]:
-    submission_id = record["id"]
-    title = record.get("title", submission_id)
-    submitted_at = record.get("submitted_at") or _now_label()
-    submitted_epoch = _label_to_epoch(submitted_at)
-    provider_payloads = provider_payloads or {}
-    provider_state = {"internal": "ok"}
-    for provider_id in provider_payloads:
-        if provider_id == "internal":
-            continue
-        provider_state[provider_id] = _external_provider_state(provider_payloads, provider_id)
-    return {
-        "id": submission_id,
-        "title": title,
-        "asset": record["asset"],
-        "riskScore": score,
-        "riskBand": band,
-        "submittedAt": submitted_at,
-        "submittedEpoch": submitted_epoch,
-        "lastAnalysis": _now_label(),
-        "applicantStatus": "검토 중",
-        "decisionStatus": "unreviewed",
-        "applicantVisible": False,
-        "reasons": reasons or ["분석 근거 없음"],
-        "providerState": provider_state,
-        "fileFacts": {
-            "size": f"{record.get('width', 1)} x {record.get('height', 1)}",
-            "format": record.get("format", "FILE"),
-            "submitted": submitted_at,
-            "analysis": "v1",
-        },
-        "derivativeNote": "로컬 이미지 저장소에서 읽은 내부 검토용 이미지입니다.",
-        "recommendation": {
-            "label": "운영자 검토 필요",
-            "detail": "자동 분석은 참고 정보이며 최종 결정은 운영자가 기록합니다.",
-        },
-        "derivedPreview": {
-            "automatic": False,
-            "entryName": f"{title} / {submission_id}",
-            "effect": "반려 시에만 지식 DB 후보로 기록됩니다.",
-        },
-        "queryHistory": [],
-        "similar": [{"asset": record["asset"], "label": "local submission"}],
-        "evidence": [],
-    }
-
-
-def _external_provider_state(
-    provider_payloads: dict[str, dict[str, Any]],
-    provider_id: str,
-) -> str:
-    provider = provider_payloads.get(provider_id, {})
-    return "pending" if provider.get("enabled") else "disabled"
-
-
-def _external_provider_state_for_submission(
-    provider_payloads: dict[str, dict[str, Any]],
-    provider_id: str,
-    submission: dict[str, Any],
-    evidence: list[dict[str, Any]],
-) -> str:
-    provider = provider_payloads.get(provider_id, {})
-    if not provider.get("enabled"):
-        return "disabled"
-
-    matching_evidence = [
-        item for item in evidence if _evidence_matches_provider(item, provider_id)
-    ]
-    matching_history = [
-        item
-        for item in submission.get("queryHistory", []) or []
-        if _history_matches_provider(item, provider_id)
-    ]
-
-    if any(_provider_item_failed(item) for item in matching_evidence) or any(
-        str(item.get("status", "")) == "failed" for item in matching_history
-    ):
-        return "failed"
-    if any(_provider_item_has_result(item) for item in matching_evidence) or any(
-        int(item.get("count", 0) or 0) > 0 and str(item.get("status", "")) in {"auto", "manual"}
-        for item in matching_history
-    ):
-        return "covered"
-    if matching_evidence or any(str(item.get("status", "")) in {"auto", "manual"} for item in matching_history):
-        return "empty"
-    return "not_run"
-
-
-def _evidence_matches_provider(evidence: dict[str, Any], provider_id: str) -> bool:
-    source = str(evidence.get("source", ""))
-    domain = str(evidence.get("domain", ""))
-    if provider_id == "naver":
-        return source == "naver" or domain in {"naver", "naver_blog", "naver_web"}
-    if provider_id == "google":
-        return source == "google" and domain != "google_custom_search"
-    if provider_id == "google_search":
-        return domain == "google_custom_search"
-    if provider_id == "llm":
-        return source == "llm" or (source == "failure" and "LLM" in str(evidence.get("title", "")))
-    return domain == provider_id
-
-
-def _history_matches_provider(history: dict[str, Any], provider_id: str) -> bool:
-    provider = str(history.get("provider", ""))
-    if provider_id == "naver":
-        return provider in {"naver", "naver_blog", "naver_web"}
-    return provider == provider_id
-
-
-def _provider_item_failed(evidence: dict[str, Any]) -> bool:
-    title = str(evidence.get("title", "")).lower()
-    if "returned no results" in title:
-        return False
-    if str(evidence.get("source", "")) == "failure":
-        return True
-    return "failed" in title
-
-
-def _provider_item_has_result(evidence: dict[str, Any]) -> bool:
-    title = str(evidence.get("title", "")).lower()
-    if "returned no results" in title:
-        return False
-    if str(evidence.get("source", "")) == "failure":
-        return False
-    if str(evidence.get("matchType", "")) == "weak_label":
-        return False
-    return True
-
-
-def _external_provider_ids(provider_payloads: dict[str, dict[str, Any]]) -> list[str]:
-    return [provider_id for provider_id in provider_payloads if provider_id != "internal"]
-
-
-def _face_crop_web_evidence(
-    submission_id: str,
-    crop_index: int,
-    evidence: Evidence,
-) -> Evidence:
-    data = {
-        **evidence.data,
-        "submission_id": submission_id,
-        "face_crop_search": True,
-        "crop_index": crop_index,
-        "weak_hint": True,
-        "privacy_note": "얼굴 영역만 웹 탐지한 참고 근거이며 동일인 판정이 아닙니다.",
-    }
-    return Evidence(
-        source=evidence.source,
-        reason=f"Google face crop web evidence: {evidence.reason}",
-        confidence=evidence.confidence,
-        data=data,
-    )
-
-
-def _evidence_payload(submission_id: str, evidence: Evidence) -> dict[str, Any]:
-    source = _ui_source(evidence.source)
-    result_url = str(evidence.data.get("url", evidence.data.get("result_url", "")))
-    image_url = str(evidence.data.get("image_url", ""))
-    page_image_urls = _unique_texts(_text_list(evidence.data.get("page_image_urls", [])))
-    thumbnail_url = str(evidence.data.get("thumbnail_url", ""))
-    if not thumbnail_url and not image_url and page_image_urls:
-        thumbnail_url = page_image_urls[0]
-    page_title = str(evidence.data.get("page_title", evidence.data.get("title", "")))
-    face_crop_search = bool(evidence.data.get("face_crop_search", False))
-    knowledge_entry_status = str(evidence.data.get("knowledge_entry_status", ""))
-    return {
-        "id": _evidence_id(submission_id, evidence),
-        "group": "watchlist" if knowledge_entry_status == "watchlist" else "face_web" if face_crop_search else _ui_group(evidence.source),
-        "source": source,
-        "title": evidence.reason,
-        "confidence": evidence.confidence,
-        "query": str(evidence.data.get("query", "")),
-        "querySignature": str(evidence.data.get("query_signature", "")),
-        "queryStrategy": str(evidence.data.get("query_strategy", "")),
-        "querySource": str(evidence.data.get("query_source", "")),
-        "searchType": str(evidence.data.get("search_type", "")),
-        "domain": str(evidence.data.get("provider", evidence.data.get("domain", "internal"))),
-        "url": result_url,
-        "imageUrl": image_url,
-        "thumbnailUrl": thumbnail_url,
-        "pageImageUrls": page_image_urls,
-        "remoteImageUrl": str(evidence.data.get("remote_image_url", "")),
-        "sourcePageUrl": str(evidence.data.get("source_page_url", "")),
-        "imageCandidateSource": str(evidence.data.get("image_candidate_source", "")),
-        "bloggerName": str(evidence.data.get("blogger_name", "")),
-        "bloggerLink": str(evidence.data.get("blogger_link", "")),
-        "postdate": str(evidence.data.get("postdate", "")),
-        "pageTitle": page_title,
-        "matchType": str(evidence.data.get("match", "")),
-        "rank": evidence.data.get("rank", ""),
-        "providerScore": evidence.data.get("score", ""),
-        "faceCropSearch": face_crop_search,
-        "cropIndex": evidence.data.get("crop_index", ""),
-        "privacyNote": str(evidence.data.get("privacy_note", "")),
-        "knowledgeEntryId": str(evidence.data.get("knowledge_entry_id", "")),
-        "knowledgeEntryName": str(evidence.data.get("knowledge_name", "")),
-        "knowledgeEntryStatus": knowledge_entry_status,
-        "sourceSubmissionId": str(evidence.data.get("source_submission_id", "")),
-        "similarity": evidence.data.get("similarity", ""),
-        "retrievedAt": _now_label(),
-        "contributed": source not in {"llm", "failure"} and not evidence.data.get("weak_hint", False),
-        "sourceEvidenceIds": evidence.data.get("source_evidence_ids", []),
-        "status": "active",
-        "submission_id": submission_id,
-    }
-
-
-def _domain_evidence_from_ui(payload: dict[str, Any]) -> Evidence:
-    title = str(payload.get("title", ""))
-    return Evidence(
-        source=_domain_source_from_ui_payload(payload),
-        reason=title,
-        confidence=float(payload.get("confidence", 0)),
-        data={
-            "evidence_id": payload.get("id", ""),
-            "query": payload.get("query", ""),
-            "query_signature": payload.get("querySignature", ""),
-            "query_strategy": payload.get("queryStrategy", ""),
-            "query_source": payload.get("querySource", ""),
-            "search_type": payload.get("searchType", ""),
-            "domain": payload.get("domain", ""),
-            "url": payload.get("url", ""),
-            "result_url": payload.get("url", ""),
-            "image_url": payload.get("imageUrl", ""),
-            "thumbnail_url": payload.get("thumbnailUrl", ""),
-            "remote_image_url": payload.get("remoteImageUrl", ""),
-            "source_page_url": payload.get("sourcePageUrl", ""),
-            "image_candidate_source": payload.get("imageCandidateSource", ""),
-            "blogger_name": payload.get("bloggerName", ""),
-            "blogger_link": payload.get("bloggerLink", ""),
-            "postdate": payload.get("postdate", ""),
-            "page_title": payload.get("pageTitle", ""),
-            "match": payload.get("matchType", ""),
-            "rank": payload.get("rank", ""),
-            "score": payload.get("providerScore", ""),
-            "contributed": payload.get("contributed", True),
-            "status": payload.get("status", ""),
-            "weak_hint": bool(payload.get("faceCropSearch", False)) or _is_google_weak_label_payload(payload),
-            "face_crop_search": bool(payload.get("faceCropSearch", False)),
-            "crop_index": payload.get("cropIndex", ""),
-            "privacy_note": payload.get("privacyNote", ""),
-            "operator_status": payload.get("operatorStatus", ""),
-            "knowledge_entry_id": payload.get("knowledgeEntryId", ""),
-            "knowledge_name": payload.get("knowledgeEntryName", ""),
-            "knowledge_entry_status": payload.get("knowledgeEntryStatus", ""),
-            "source_submission_id": payload.get("sourceSubmissionId", ""),
-            "similarity": payload.get("similarity", ""),
-        },
-    )
-
-
-def _domain_source_from_ui_payload(payload: dict[str, Any]) -> EvidenceSource:
-    source = str(payload.get("source", ""))
-    title = str(payload.get("title", "")).lower()
-    if source == "failure" and (
-        "disabled" in title or "skipped" in title or "usage limit" in title
-    ):
-        return EvidenceSource.EXTERNAL_SKIPPED
-    return _domain_source_from_ui(source)
-
-
-def _domain_source_from_ui(source: str) -> EvidenceSource:
-    if source == "google":
-        return EvidenceSource.WEB_DETECTION
-    if source == "naver":
-        return EvidenceSource.NAVER_SEARCH
-    if source == "face":
-        return EvidenceSource.FACE_PERSON
-    if source == "failure":
-        return EvidenceSource.FAILURE
-    if source == "llm":
-        return EvidenceSource.LLM_SUMMARY
-    return EvidenceSource.FINGERPRINT
-
-
-def _is_google_weak_label_payload(payload: dict[str, Any]) -> bool:
-    title = str(payload.get("title", ""))
-    return (
-        payload.get("source") == "google"
-        and not payload.get("url")
-        and (title.startswith("Best guess label ") or title.startswith("Google weak label "))
-    )
-
-
-def _google_weak_label_title(title: str) -> str:
-    if title.startswith("Best guess label "):
-        return "Google weak label " + title.removeprefix("Best guess label ")
-    return title
-
-
-def _evidence_id(submission_id: str, evidence: Evidence) -> str:
-    base = f"{submission_id}:{evidence.source}:{evidence.reason}:{json.dumps(evidence.data, sort_keys=True, default=str)}"
-    return "ev-" + hashlib.sha256(base.encode("utf-8")).hexdigest()[:24]
-
-
-def _ui_source(source: EvidenceSource) -> str:
-    if source == EvidenceSource.WEB_DETECTION:
-        return "google"
-    if source == EvidenceSource.NAVER_SEARCH:
-        return "naver"
-    if source == EvidenceSource.LLM_SUMMARY:
-        return "llm"
-    if source in {EvidenceSource.FAILURE, EvidenceSource.EXTERNAL_SKIPPED, EvidenceSource.SEARCH_SKIPPED, EvidenceSource.ENRICHMENT_FAILURE}:
-        return "failure"
-    if source == EvidenceSource.FACE_PERSON:
-        return "face"
-    return "fingerprint"
-
-
-def _ui_group(source: EvidenceSource) -> str:
-    ui_source = _ui_source(source)
-    if ui_source in {"fingerprint", "face"}:
-        return "internal"
-    return ui_source
-
-
-def _now_label() -> str:
-    return datetime.now().strftime("%Y-%m-%d %H:%M:%S")
-
-
-def _label_to_epoch(value: str) -> int:
-    # Parse the timestamp label into a Unix epoch for chronological sorting in
-    # the operator GUI. Falls back to "now" when the label is missing or in an
-    # unrecognized format (mirroring the submittedAt `or _now_label()` fallback).
-    text = str(value).strip()
-    if not text:
-        return int(datetime.now().timestamp())
-    for fmt in ("%Y-%m-%d %H:%M:%S", "%Y-%m-%d %H:%M", "%Y-%m-%d"):
-        try:
-            return int(datetime.strptime(text, fmt).timestamp())
-        except ValueError:
-            continue
-    try:
-        return int(datetime.fromisoformat(text).timestamp())
-    except ValueError:
-        return int(datetime.now().timestamp())
-
-
-def _timestamp_id() -> str:
-    return datetime.now().strftime("%Y%m%d%H%M%S%f")
--- a/src/rights_filter/server/store_serialization.py
+++ b/src/rights_filter/server/store_serialization.py
@ -0,0 +1,424 @@
+"""Payload (de)serialization and small domain-mapping helpers for the store.
+
+Extracted from sqlite_store.py: submission/evidence payload builders, provider-
+state derivation, UI<->domain evidence mapping, weak-label handling, and id/label
+helpers. Pure functions over dict/domain payloads; no dependency on the store
+class or its module-level constants. Behavior unchanged.
+"""
+
+from __future__ import annotations
+
+import hashlib
+import json
+import mimetypes
+import re
+from datetime import datetime
+from io import BytesIO
+from pathlib import Path
+from typing import Any
+from urllib.parse import urlparse
+
+from rights_filter.domain.records import Evidence, EvidenceSource, KnowledgeProvenance
+from rights_filter.server.image_store import SUPPORTED_IMAGE_SUFFIXES
+from rights_filter.server.store_text import _text_list, _unique_texts
+
+
+def _knowledge_provenance(value: str) -> KnowledgeProvenance:
+    if value == "automatic":
+        return KnowledgeProvenance.AUTOMATIC_REJECTION
+    try:
+        return KnowledgeProvenance(value)
+    except ValueError:
+        return KnowledgeProvenance.EXTERNAL_EVIDENCE
+
+
+def _safe_image_suffix(filename: str, content_type: str) -> str:
+    suffix = Path(filename).suffix.lower()
+    if not suffix and content_type:
+        suffix = mimetypes.guess_extension(content_type.split(";", 1)[0].strip()) or ""
+    if suffix == ".jpe":
+        suffix = ".jpg"
+    if suffix not in SUPPORTED_IMAGE_SUFFIXES:
+        raise ValueError("unsupported knowledge image type")
+    return suffix
+
+
+def _safe_filename(value: str) -> str:
+    return re.sub(r"[^A-Za-z0-9_.-]+", "-", value).strip(".-")
+
+
+def _image_size_from_bytes(content: bytes) -> tuple[int, int]:
+    try:
+        from PIL import Image
+
+        with Image.open(BytesIO(content)) as image:
+            return int(image.width), int(image.height)
+    except Exception:
+        return 1, 1
+
+
+def _stable_id(prefix: str, *parts: str) -> str:
+    digest = hashlib.sha1("\x1f".join(parts).encode("utf-8")).hexdigest()[:20]
+    return f"{prefix}-{digest}"
+
+
+def _strip_html(value: str) -> str:
+    without_tags = re.sub(r"<[^>]+>", "", value)
+    return " ".join(without_tags.split())
+
+
+def _image_suffix_from_url(url: str) -> str:
+    suffix = Path(urlparse(url).path).suffix.lower()
+    if suffix == ".jpe":
+        suffix = ".jpg"
+    if suffix not in SUPPORTED_IMAGE_SUFFIXES:
+        return ".jpg"
+    return suffix
+
+
+def _submission_payload(
+    record: dict[str, Any],
+    score: int,
+    band: str,
+    reasons: list[str],
+    provider_payloads: dict[str, dict[str, Any]] | None = None,
+) -> dict[str, Any]:
+    submission_id = record["id"]
+    title = record.get("title", submission_id)
+    submitted_at = record.get("submitted_at") or _now_label()
+    submitted_epoch = _label_to_epoch(submitted_at)
+    provider_payloads = provider_payloads or {}
+    provider_state = {"internal": "ok"}
+    for provider_id in provider_payloads:
+        if provider_id == "internal":
+            continue
+        provider_state[provider_id] = _external_provider_state(provider_payloads, provider_id)
+    return {
+        "id": submission_id,
+        "title": title,
+        "asset": record["asset"],
+        "riskScore": score,
+        "riskBand": band,
+        "submittedAt": submitted_at,
+        "submittedEpoch": submitted_epoch,
+        "lastAnalysis": _now_label(),
+        "applicantStatus": "검토 중",
+        "decisionStatus": "unreviewed",
+        "applicantVisible": False,
+        "reasons": reasons or ["분석 근거 없음"],
+        "providerState": provider_state,
+        "fileFacts": {
+            "size": f"{record.get('width', 1)} x {record.get('height', 1)}",
+            "format": record.get("format", "FILE"),
+            "submitted": submitted_at,
+            "analysis": "v1",
+        },
+        "derivativeNote": "로컬 이미지 저장소에서 읽은 내부 검토용 이미지입니다.",
+        "recommendation": {
+            "label": "운영자 검토 필요",
+            "detail": "자동 분석은 참고 정보이며 최종 결정은 운영자가 기록합니다.",
+        },
+        "derivedPreview": {
+            "automatic": False,
+            "entryName": f"{title} / {submission_id}",
+            "effect": "반려 시에만 지식 DB 후보로 기록됩니다.",
+        },
+        "queryHistory": [],
+        "similar": [{"asset": record["asset"], "label": "local submission"}],
+        "evidence": [],
+    }
+
+
+def _external_provider_state(
+    provider_payloads: dict[str, dict[str, Any]],
+    provider_id: str,
+) -> str:
+    provider = provider_payloads.get(provider_id, {})
+    return "pending" if provider.get("enabled") else "disabled"
+
+
+def _external_provider_state_for_submission(
+    provider_payloads: dict[str, dict[str, Any]],
+    provider_id: str,
+    submission: dict[str, Any],
+    evidence: list[dict[str, Any]],
+) -> str:
+    provider = provider_payloads.get(provider_id, {})
+    if not provider.get("enabled"):
+        return "disabled"
+
+    matching_evidence = [
+        item for item in evidence if _evidence_matches_provider(item, provider_id)
+    ]
+    matching_history = [
+        item
+        for item in submission.get("queryHistory", []) or []
+        if _history_matches_provider(item, provider_id)
+    ]
+
+    if any(_provider_item_failed(item) for item in matching_evidence) or any(
+        str(item.get("status", "")) == "failed" for item in matching_history
+    ):
+        return "failed"
+    if any(_provider_item_has_result(item) for item in matching_evidence) or any(
+        int(item.get("count", 0) or 0) > 0 and str(item.get("status", "")) in {"auto", "manual"}
+        for item in matching_history
+    ):
+        return "covered"
+    if matching_evidence or any(str(item.get("status", "")) in {"auto", "manual"} for item in matching_history):
+        return "empty"
+    return "not_run"
+
+
+def _evidence_matches_provider(evidence: dict[str, Any], provider_id: str) -> bool:
+    source = str(evidence.get("source", ""))
+    domain = str(evidence.get("domain", ""))
+    if provider_id == "naver":
+        return source == "naver" or domain in {"naver", "naver_blog", "naver_web"}
+    if provider_id == "google":
+        return source == "google" and domain != "google_custom_search"
+    if provider_id == "google_search":
+        return domain == "google_custom_search"
+    if provider_id == "llm":
+        return source == "llm" or (source == "failure" and "LLM" in str(evidence.get("title", "")))
+    return domain == provider_id
+
+
+def _history_matches_provider(history: dict[str, Any], provider_id: str) -> bool:
+    provider = str(history.get("provider", ""))
+    if provider_id == "naver":
+        return provider in {"naver", "naver_blog", "naver_web"}
+    return provider == provider_id
+
+
+def _provider_item_failed(evidence: dict[str, Any]) -> bool:
+    title = str(evidence.get("title", "")).lower()
+    if "returned no results" in title:
+        return False
+    if str(evidence.get("source", "")) == "failure":
+        return True
+    return "failed" in title
+
+
+def _provider_item_has_result(evidence: dict[str, Any]) -> bool:
+    title = str(evidence.get("title", "")).lower()
+    if "returned no results" in title:
+        return False
+    if str(evidence.get("source", "")) == "failure":
+        return False
+    if str(evidence.get("matchType", "")) == "weak_label":
+        return False
+    return True
+
+
+def _external_provider_ids(provider_payloads: dict[str, dict[str, Any]]) -> list[str]:
+    return [provider_id for provider_id in provider_payloads if provider_id != "internal"]
+
+
+def _face_crop_web_evidence(
+    submission_id: str,
+    crop_index: int,
+    evidence: Evidence,
+) -> Evidence:
+    data = {
+        **evidence.data,
+        "submission_id": submission_id,
+        "face_crop_search": True,
+        "crop_index": crop_index,
+        "weak_hint": True,
+        "privacy_note": "얼굴 영역만 웹 탐지한 참고 근거이며 동일인 판정이 아닙니다.",
+    }
+    return Evidence(
+        source=evidence.source,
+        reason=f"Google face crop web evidence: {evidence.reason}",
+        confidence=evidence.confidence,
+        data=data,
+    )
+
+
+def _evidence_payload(submission_id: str, evidence: Evidence) -> dict[str, Any]:
+    source = _ui_source(evidence.source)
+    result_url = str(evidence.data.get("url", evidence.data.get("result_url", "")))
+    image_url = str(evidence.data.get("image_url", ""))
+    page_image_urls = _unique_texts(_text_list(evidence.data.get("page_image_urls", [])))
+    thumbnail_url = str(evidence.data.get("thumbnail_url", ""))
+    if not thumbnail_url and not image_url and page_image_urls:
+        thumbnail_url = page_image_urls[0]
+    page_title = str(evidence.data.get("page_title", evidence.data.get("title", "")))
+    face_crop_search = bool(evidence.data.get("face_crop_search", False))
+    knowledge_entry_status = str(evidence.data.get("knowledge_entry_status", ""))
+    return {
+        "id": _evidence_id(submission_id, evidence),
+        "group": "watchlist" if knowledge_entry_status == "watchlist" else "face_web" if face_crop_search else _ui_group(evidence.source),
+        "source": source,
+        "title": evidence.reason,
+        "confidence": evidence.confidence,
+        "query": str(evidence.data.get("query", "")),
+        "querySignature": str(evidence.data.get("query_signature", "")),
+        "queryStrategy": str(evidence.data.get("query_strategy", "")),
+        "querySource": str(evidence.data.get("query_source", "")),
+        "searchType": str(evidence.data.get("search_type", "")),
+        "domain": str(evidence.data.get("provider", evidence.data.get("domain", "internal"))),
+        "url": result_url,
+        "imageUrl": image_url,
+        "thumbnailUrl": thumbnail_url,
+        "pageImageUrls": page_image_urls,
+        "remoteImageUrl": str(evidence.data.get("remote_image_url", "")),
+        "sourcePageUrl": str(evidence.data.get("source_page_url", "")),
+        "imageCandidateSource": str(evidence.data.get("image_candidate_source", "")),
+        "bloggerName": str(evidence.data.get("blogger_name", "")),
+        "bloggerLink": str(evidence.data.get("blogger_link", "")),
+        "postdate": str(evidence.data.get("postdate", "")),
+        "pageTitle": page_title,
+        "matchType": str(evidence.data.get("match", "")),
+        "rank": evidence.data.get("rank", ""),
+        "providerScore": evidence.data.get("score", ""),
+        "faceCropSearch": face_crop_search,
+        "cropIndex": evidence.data.get("crop_index", ""),
+        "privacyNote": str(evidence.data.get("privacy_note", "")),
+        "knowledgeEntryId": str(evidence.data.get("knowledge_entry_id", "")),
+        "knowledgeEntryName": str(evidence.data.get("knowledge_name", "")),
+        "knowledgeEntryStatus": knowledge_entry_status,
+        "sourceSubmissionId": str(evidence.data.get("source_submission_id", "")),
+        "similarity": evidence.data.get("similarity", ""),
+        "retrievedAt": _now_label(),
+        "contributed": source not in {"llm", "failure"} and not evidence.data.get("weak_hint", False),
+        "sourceEvidenceIds": evidence.data.get("source_evidence_ids", []),
+        "status": "active",
+        "submission_id": submission_id,
+    }
+
+
+def _domain_evidence_from_ui(payload: dict[str, Any]) -> Evidence:
+    title = str(payload.get("title", ""))
+    return Evidence(
+        source=_domain_source_from_ui_payload(payload),
+        reason=title,
+        confidence=float(payload.get("confidence", 0)),
+        data={
+            "evidence_id": payload.get("id", ""),
+            "query": payload.get("query", ""),
+            "query_signature": payload.get("querySignature", ""),
+            "query_strategy": payload.get("queryStrategy", ""),
+            "query_source": payload.get("querySource", ""),
+            "search_type": payload.get("searchType", ""),
+            "domain": payload.get("domain", ""),
+            "url": payload.get("url", ""),
+            "result_url": payload.get("url", ""),
+            "image_url": payload.get("imageUrl", ""),
+            "thumbnail_url": payload.get("thumbnailUrl", ""),
+            "remote_image_url": payload.get("remoteImageUrl", ""),
+            "source_page_url": payload.get("sourcePageUrl", ""),
+            "image_candidate_source": payload.get("imageCandidateSource", ""),
+            "blogger_name": payload.get("bloggerName", ""),
+            "blogger_link": payload.get("bloggerLink", ""),
+            "postdate": payload.get("postdate", ""),
+            "page_title": payload.get("pageTitle", ""),
+            "match": payload.get("matchType", ""),
+            "rank": payload.get("rank", ""),
+            "score": payload.get("providerScore", ""),
+            "contributed": payload.get("contributed", True),
+            "status": payload.get("status", ""),
+            "weak_hint": bool(payload.get("faceCropSearch", False)) or _is_google_weak_label_payload(payload),
+            "face_crop_search": bool(payload.get("faceCropSearch", False)),
+            "crop_index": payload.get("cropIndex", ""),
+            "privacy_note": payload.get("privacyNote", ""),
+            "operator_status": payload.get("operatorStatus", ""),
+            "knowledge_entry_id": payload.get("knowledgeEntryId", ""),
+            "knowledge_name": payload.get("knowledgeEntryName", ""),
+            "knowledge_entry_status": payload.get("knowledgeEntryStatus", ""),
+            "source_submission_id": payload.get("sourceSubmissionId", ""),
+            "similarity": payload.get("similarity", ""),
+        },
+    )
+
+
+def _domain_source_from_ui_payload(payload: dict[str, Any]) -> EvidenceSource:
+    source = str(payload.get("source", ""))
+    title = str(payload.get("title", "")).lower()
+    if source == "failure" and (
+        "disabled" in title or "skipped" in title or "usage limit" in title
+    ):
+        return EvidenceSource.EXTERNAL_SKIPPED
+    return _domain_source_from_ui(source)
+
+
+def _domain_source_from_ui(source: str) -> EvidenceSource:
+    if source == "google":
+        return EvidenceSource.WEB_DETECTION
+    if source == "naver":
+        return EvidenceSource.NAVER_SEARCH
+    if source == "face":
+        return EvidenceSource.FACE_PERSON
+    if source == "failure":
+        return EvidenceSource.FAILURE
+    if source == "llm":
+        return EvidenceSource.LLM_SUMMARY
+    return EvidenceSource.FINGERPRINT
+
+
+def _is_google_weak_label_payload(payload: dict[str, Any]) -> bool:
+    title = str(payload.get("title", ""))
+    return (
+        payload.get("source") == "google"
+        and not payload.get("url")
+        and (title.startswith("Best guess label ") or title.startswith("Google weak label "))
+    )
+
+
+def _google_weak_label_title(title: str) -> str:
+    if title.startswith("Best guess label "):
+        return "Google weak label " + title.removeprefix("Best guess label ")
+    return title
+
+
+def _evidence_id(submission_id: str, evidence: Evidence) -> str:
+    base = f"{submission_id}:{evidence.source}:{evidence.reason}:{json.dumps(evidence.data, sort_keys=True, default=str)}"
+    return "ev-" + hashlib.sha256(base.encode("utf-8")).hexdigest()[:24]
+
+
+def _ui_source(source: EvidenceSource) -> str:
+    if source == EvidenceSource.WEB_DETECTION:
+        return "google"
+    if source == EvidenceSource.NAVER_SEARCH:
+        return "naver"
+    if source == EvidenceSource.LLM_SUMMARY:
+        return "llm"
+    if source in {EvidenceSource.FAILURE, EvidenceSource.EXTERNAL_SKIPPED, EvidenceSource.SEARCH_SKIPPED, EvidenceSource.ENRICHMENT_FAILURE}:
+        return "failure"
+    if source == EvidenceSource.FACE_PERSON:
+        return "face"
+    return "fingerprint"
+
+
+def _ui_group(source: EvidenceSource) -> str:
+    ui_source = _ui_source(source)
+    if ui_source in {"fingerprint", "face"}:
+        return "internal"
+    return ui_source
+
+
+def _now_label() -> str:
+    return datetime.now().strftime("%Y-%m-%d %H:%M:%S")
+
+
+def _label_to_epoch(value: str) -> int:
+    # Parse the timestamp label into a Unix epoch for chronological sorting in
+    # the operator GUI. Falls back to "now" when the label is missing or in an
+    # unrecognized format (mirroring the submittedAt `or _now_label()` fallback).
+    text = str(value).strip()
+    if not text:
+        return int(datetime.now().timestamp())
+    for fmt in ("%Y-%m-%d %H:%M:%S", "%Y-%m-%d %H:%M", "%Y-%m-%d"):
+        try:
+            return int(datetime.strptime(text, fmt).timestamp())
+        except ValueError:
+            continue
+    try:
+        return int(datetime.fromisoformat(text).timestamp())
+    except ValueError:
+        return int(datetime.now().timestamp())
+
+
+def _timestamp_id() -> str:
+    return datetime.now().strftime("%Y%m%d%H%M%S%f")