feat(05): data pipeline optimization (DATA-01, DATA-04)

Plan 01 - DATA-01: 30-day window dedup fix: - dedup.py: both single-field and double-field SQL queries now include AND created_at > now() - INTERVAL 30 DAY - tests/ingest/test_dedup.py: 6 mock tests validating 30-day window Plan 02 - DATA-04: company vs search job channel separation: - schemas/ingest.py: ChannelType.COMPANY = 'company' - configs/boss.py: register channel='company' config - configs/qcwy.py: register channel='company' config - configs/zhilian.py: register channel='company' config - company_jobs_sync.py: store_batch(..., 'mini', ...) → (..., 'company', ...) DATA-02: confirmed already complete (job.py has /data/batch-async endpoint) DATA-03: confirmed already complete (company_cleaner.py full pipeline) Full regression: 112 passed (106 existing + 6 new)
2026-03-21 19:50:06 +08:00 · 2026-03-21 19:50:06 +08:00 · 3d202c3486
commit 3d202c3486
parent 9ef31cc87e
8 changed files with 673 additions and 0 deletions
--- a/app/schemas/ingest.py
+++ b/app/schemas/ingest.py
@ -0,0 +1,43 @@
 from enum import Enum
 from typing import Dict, Any, List, Optional
 from pydantic import BaseModel, Field
 class PlatformType(str, Enum):
    BOSS = "boss"
    QCWY = "qcwy"
    ZHILIAN = "zhilian"
 class ChannelType(str, Enum):
    MINI = "mini"
    WEB = "web"
    APP = "app"
    COMPANY = "company"  # 公司关联职位（与搜索职位 mini 区分）
 class DataType(str, Enum):
    JOB = "job"
    COMPANY = "company"
 class IngestSingleRequest(BaseModel):
    data: Dict[str, Any] = Field(..., description="要存储的数据")
    data_type: DataType = Field(..., description="数据类型")
    platform: PlatformType = Field(..., description="平台类型")
    channel: ChannelType = Field(ChannelType.MINI, description="渠道类型")
    check_duplicate: bool = Field(True, description="是否检查重复")
 class IngestBatchRequest(BaseModel):
    data_list: List[Dict[str, Any]] = Field(..., description="要存储的数据列表")
    data_type: DataType = Field(..., description="数据类型")
    platform: PlatformType = Field(..., description="平台类型")
    channel: ChannelType = Field(ChannelType.MINI, description="渠道类型")
    check_duplicate: bool = Field(True, description="是否检查重复")
 class IngestResponse(BaseModel):
    code: int = 200
    message: str = "ok"
    data: Optional[Dict[str, Any]] = None
--- a/app/services/company_jobs_sync.py
+++ b/app/services/company_jobs_sync.py
@ -0,0 +1,133 @@
 import asyncio
 import time
 from typing import Any, Dict, List, Optional
 from loguru import logger
 from app.core.clickhouse import clickhouse_manager
 from app.models.token import BossToken
 from app.services.crawler.boss import BossService
 from app.services.crawler.qcwy import QcwyService
 from app.services.crawler.zhilian import ZhilianService
 from app.services.ingest import IngestService
 def _qcwy_extract_items(resp: dict) -> list:
    if not isinstance(resp, dict):
        return []
    rb = resp.get("resultbody") or resp.get("resultBody")
    if isinstance(rb, dict):
        job_node = rb.get("job")
        if isinstance(job_node, dict) and isinstance(job_node.get("items"), list):
            return job_node["items"]
    for key in ("items", "list", "jobs", "jobList"):
        val = resp.get(key)
        if isinstance(val, list):
            return val
    return []
 class CompanyJobsSyncService:
    _TOKEN_REFRESH_INTERVAL = 3600
    def __init__(self):
        self.boss_service = BossService()
        self.qcwy_service = QcwyService()
        self.zhilian_service = ZhilianService()
        self.data_router: Optional[IngestService] = None
        self._boss_token_loaded = False
        self._token_loaded_at: float = 0
    def set_proxy(self, proxy: Optional[str]) -> None:
        self.boss_service.set_proxy(proxy)
        self.qcwy_service.set_proxy(proxy)
        self.zhilian_service.set_proxy(proxy)
    async def get_data_router(self) -> IngestService:
        if not self.data_router:
            client = await clickhouse_manager.get_client()
            self.data_router = IngestService(client)
        return self.data_router
    async def _ensure_boss_token_loaded(self) -> None:
        now = time.time()
        if (
            self._boss_token_loaded
            and self.boss_service.login_data.get("mpt")
            and now - self._token_loaded_at < self._TOKEN_REFRESH_INTERVAL
        ):
            return
        token_obj = await BossToken.filter(is_active=True).order_by("-updated_at").first()
        if not token_obj:
            logger.warning("BossToken not found or inactive in CompanyJobsSyncService")
            return
        self.boss_service.set_login_data(token_obj.mpt or "", "")
        self._boss_token_loaded = True
        self._token_loaded_at = now
    async def sync_company_jobs(self, source: str, company_id: str) -> Dict[str, Any]:
        router = await self.get_data_router()
        if source == "boss":
            await self._ensure_boss_token_loaded()
            data = await asyncio.to_thread(self.boss_service.get_company_jobs_by_id, company_id)
            jobs = self._extract_boss_jobs(data)
        elif source == "qcwy":
            data = await asyncio.to_thread(self.qcwy_service.get_company_jobs_by_id, company_id)
            jobs = self._extract_qcwy_jobs(data)
        elif source == "zhilian":
            data = await asyncio.to_thread(self.zhilian_service.get_company_jobs_by_id, company_id)
            jobs = self._extract_zhilian_jobs(data)
        else:
            raise ValueError(f"unsupported source: {source}")
        if not jobs:
            return {
                "success": True,
                "source": source,
                "company_id": company_id,
                "jobs_fetched": 0,
                "stored_success": 0,
                "duplicate": 0,
                "failed": 0,
                "original_data": data,
            }
        store_result = await router.store_batch(source, "company", "job", jobs)
        return {
            "success": True,
            "source": source,
            "company_id": company_id,
            "jobs_fetched": len(jobs),
            "stored_success": store_result.get("success", 0),
            "duplicate": store_result.get("duplicate", 0),
            "failed": store_result.get("failed", 0),
            "errors": store_result.get("errors", []),
            "original_data": data,
        }
    @staticmethod
    def _extract_boss_jobs(data: Optional[Dict[str, Any]]) -> List[Dict[str, Any]]:
        if not isinstance(data, dict):
            return []
        zp_data = data.get("zpData") or {}
        if isinstance(zp_data.get("jobList"), list):
            return zp_data.get("jobList") or []
        if isinstance(zp_data.get("list"), list):
            return zp_data.get("list") or []
        return []
    @staticmethod
    def _extract_qcwy_jobs(data: Optional[Dict[str, Any]]) -> List[Dict[str, Any]]:
        jobs_list = _qcwy_extract_items(data or {})
        return jobs_list if isinstance(jobs_list, list) else []
    @staticmethod
    def _extract_zhilian_jobs(data: Optional[Dict[str, Any]]) -> List[Dict[str, Any]]:
        if not isinstance(data, dict):
            return []
        jobs = data.get("list")
        if not isinstance(jobs, list):
            data_field = data.get("data") or {}
            jobs = data_field.get("list") or []
        return jobs if isinstance(jobs, list) else []
--- a/app/services/ingest/configs/boss.py
+++ b/app/services/ingest/configs/boss.py
@ -0,0 +1,70 @@
 from typing import Dict, Any, Optional
 from app.services.ingest.registry import PlatformConfig, DedupFieldSpec, register
 from app.services.ingest.remote_push import safe_get, safe_join
 def _extract_job_id(data: Dict[str, Any]) -> Optional[str]:
    job_base = data.get("jobBaseInfoVO", {})
    val = job_base.get("jobId") if job_base else None
    return str(val) if val else None
 def _extract_company_name(data: Dict[str, Any]) -> Optional[str]:
    name = data.get("name") or (data.get("companyFullInfoVO") or {}).get("name")
    return str(name) if name else None
 def _build_boss_push(data: Dict[str, Any]) -> Optional[Dict[str, Any]]:
    boss_base = data.get("bossBaseInfoVO") or {}
    job_base = data.get("jobBaseInfoVO") or {}
    brand = data.get("brandComInfoVO") or {}
    return {
        "source_type": "Boss直聘",
        "name": safe_get(brand, "brandName"),
        "common_name": safe_get(boss_base, "brandName"),
        "title": safe_get(job_base, "positionName"),
        "title_addr": safe_get(job_base, "positionName"),
        "description": safe_get(job_base, "jobDesc"),
        "education": safe_get(job_base, "degreeName"),
        "skill": safe_join(job_base.get("requiredSkills")),
        "welfare": safe_join(job_base.get("salaryWelfareInfo")),
        "years": safe_get(job_base, "experienceName"),
        "salary": f'{safe_get(job_base, "lowSalary")}-{safe_get(job_base, "highSalary")}',
        "location": safe_get(job_base, "locationName", "位置信息未找到"),
        "position": safe_get(job_base, "locationDesc", "位置信息未找到"),
        "job_type": "全职",
        "size": safe_get(brand, "scaleName"),
        "employer_type": "全职",
        "industry": safe_get(brand, "industryName"),
        "job_1st_class": "", "job_2nd_class": "", "job_3rd_class": "", "job_4th_class": "",
        "date": "", "start_date": "", "end_date": "",
        "age": "", "sex": "", "number": "",
        "url": f"https://www.zhipin.com/job_detail/{safe_get(job_base, 'encryptJobId')}.html",
        "company_id": safe_get(brand, "encryptBrandId"),
        "company_name": safe_get(brand, "brandName"),
        "company_url": f"https://www.zhipin.com/gongsi/{safe_get(brand, 'encryptBrandId')}.html",
        "company_desc": safe_get(brand, "introduce"),
        "base_data": data,
    }
 register(PlatformConfig(
    platform="boss", channel="mini", data_type="job",
    table="boss_job",
    dedup_fields=(DedupFieldSpec(column="job_id", extractor=_extract_job_id),),
    push_mapper=_build_boss_push,
 ))
 register(PlatformConfig(
    platform="boss", channel="mini", data_type="company",
    table="boss_company",
    dedup_fields=(DedupFieldSpec(column="company_name", extractor=_extract_company_name),),
 ))
 # 公司关联职位（通过 company_jobs_sync 写入，与搜索职位 mini 区分）
 register(PlatformConfig(
    platform="boss", channel="company", data_type="job",
    table="boss_job",
    dedup_fields=(DedupFieldSpec(column="job_id", extractor=_extract_job_id),),
 ))
--- a/app/services/ingest/configs/qcwy.py
+++ b/app/services/ingest/configs/qcwy.py
@ -0,0 +1,103 @@
 from typing import Dict, Any, Optional
 from app.services.ingest.registry import PlatformConfig, DedupFieldSpec, register
 from app.services.ingest.remote_push import safe_join
 def _extract_job_id(data: Dict[str, Any]) -> Optional[str]:
    val = data.get("jobId")
    return str(val) if val else None
 def _extract_update_dt(data: Dict[str, Any]) -> Optional[str]:
    val = data.get("updateDateTime")
    return str(val) if val else None
 def _extract_company_name(data: Dict[str, Any]) -> Optional[str]:
    name = data.get("companyName") or data.get("company_name")
    return str(name) if name else None
 def _build_qcwy_push(data: Dict[str, Any]) -> Optional[Dict[str, Any]]:
    welfare_list = data.get("jobWelfareCodeDataList")
    if isinstance(welfare_list, list):
        welfare_str = ",".join(
            str(item.get("chineseTitle") or item.get("typeTitle") or item.get("englishTitle") or item.get("code"))
            for item in welfare_list if isinstance(item, dict)
        )
    elif isinstance(welfare_list, str):
        welfare_str = welfare_list.replace("[", "").replace("]", "")
    else:
        welfare_str = ""
    raw_location = data.get("location") or ""
    if not raw_location:
        work_loc = data.get("workLocation") or {}
        raw_location = work_loc.get("workAddress") or work_loc.get("address") or ""
    location_val = raw_location or "位置信息未找到"
    raw_area = data.get("jobAreaString") or ""
    if not raw_area:
        level_detail = data.get("jobAreaLevelDetail") or {}
        city_str = level_detail.get("cityString") or ""
        landmark_str = level_detail.get("landMarkString") or ""
        raw_area = f"{city_str}{landmark_str}".strip()
    area_val = raw_area or "位置信息未找到"
    return {
        "source_type": "前程无忧",
        "name": data.get("companyName"),
        "title": data.get("jobName"),
        "title_addr": data.get("jobName"),
        "description": data.get("jobDescribe"),
        "age": "", "sex": "", "number": "",
        "education": data.get("degreeString"),
        "skill": safe_join(data.get("jobTagsForOrder")),
        "welfare": welfare_str,
        "years": data.get("workYearString"),
        "salary": f'{data.get("jobSalaryMax", "")}-{data.get("jobSalaryMin", "")}',
        "location": location_val,
        "position": area_val,
        "date": data.get("confirmDateString"),
        "start_date": data.get("confirmDateString"),
        "end_date": "",
        "job_type": data.get("termStr"),
        "size": data.get("companySizeString"),
        "employer_type": data.get("companyTypeString"),
        "industry": f'{data.get("major1Str", "")}-{data.get("major2Str", "")}',
        "job_1st_class": "", "job_2nd_class": "", "job_3rd_class": "", "job_4th_class": "",
        "url": data.get("jobHref"),
        "company_id": data.get("coId"),
        "company_name": data.get("fullCompanyName"),
        "company_url": data.get("companyHref"),
        "company_desc": data.get("company_desc", ""),
        "base_data": data,
    }
 register(PlatformConfig(
    platform="qcwy", channel="mini", data_type="job",
    table="qcwy_job",
    dedup_fields=(
        DedupFieldSpec(column="job_id", extractor=_extract_job_id),
        DedupFieldSpec(column="update_date_time", extractor=_extract_update_dt),
    ),
    push_mapper=_build_qcwy_push,
 ))
 register(PlatformConfig(
    platform="qcwy", channel="mini", data_type="company",
    table="qcwy_company",
    dedup_fields=(DedupFieldSpec(column="company_name", extractor=_extract_company_name),),
 ))
 # 公司关联职位（通过 company_jobs_sync 写入，与搜索职位 mini 区分）
 register(PlatformConfig(
    platform="qcwy", channel="company", data_type="job",
    table="qcwy_job",
    dedup_fields=(
        DedupFieldSpec(column="job_id", extractor=_extract_job_id),
        DedupFieldSpec(column="update_date_time", extractor=_extract_update_dt),
    ),
 ))
--- a/app/services/ingest/configs/zhilian.py
+++ b/app/services/ingest/configs/zhilian.py
@ -0,0 +1,81 @@
 from typing import Dict, Any, Optional
 from app.services.ingest.registry import PlatformConfig, DedupFieldSpec, register
 from app.services.ingest.remote_push import safe_get, safe_join
 def _extract_number(data: Dict[str, Any]) -> Optional[str]:
    val = data.get("number")
    return str(val) if val else None
 def _extract_fpt(data: Dict[str, Any]) -> Optional[str]:
    val = data.get("firstPublishTime")
    return str(val) if val else None
 def _extract_company_name(data: Dict[str, Any]) -> Optional[str]:
    name = data.get("companyName") or data.get("name")
    return str(name) if name else None
 def _build_zhilian_push(data: Dict[str, Any]) -> Optional[Dict[str, Any]]:
    skill_labels = data.get("skillLabel") or []
    skill_values = [tag["value"] for tag in skill_labels if isinstance(tag, dict) and "value" in tag]
    return {
        "source_type": "智联招聘",
        "name": safe_get(data, "companyName"),
        "common_name": safe_get(data, "companyName"),
        "title": safe_get(data, "name"),
        "title_addr": safe_get(data, "name"),
        "description": safe_get(data, "jobSummary"),
        "education": safe_get(data, "education"),
        "skill": safe_join(skill_values),
        "welfare": "",
        "years": safe_get(data, "workingExp"),
        "salary": safe_get(data, "salary60"),
        "location": f"{safe_get(data, 'workCity')}{safe_get(data, 'cityDistrict')}",
        "position": f"{safe_get(data, 'workCity')}{safe_get(data, 'cityDistrict')}",
        "job_type": safe_get(data, "workType"),
        "size": safe_get(data, "companySize"),
        "employer_type": safe_get(data, "propertyName"),
        "industry": safe_get(data, "industryName"),
        "job_1st_class": "", "job_2nd_class": "", "job_3rd_class": "", "job_4th_class": "",
        "date": safe_get(data, "firstPublishTime"),
        "start_date": "", "end_date": "",
        "age": "", "sex": "",
        "number": str(safe_get(data, "recruitNumber")),
        "url": safe_get(data, "positionURL"),
        "company_id": str(safe_get(data, "companyId")),
        "company_name": safe_get(data, "companyName"),
        "company_url": safe_get(data, "companyUrl"),
        "company_desc": safe_get(data, "companyDesc"),
        "base_data": data,
    }
 register(PlatformConfig(
    platform="zhilian", channel="mini", data_type="job",
    table="zhilian_job",
    dedup_fields=(
        DedupFieldSpec(column="number", extractor=_extract_number),
        DedupFieldSpec(column="first_publish_time", extractor=_extract_fpt),
    ),
    push_mapper=_build_zhilian_push,
 ))
 register(PlatformConfig(
    platform="zhilian", channel="mini", data_type="company",
    table="zhilian_company",
    dedup_fields=(DedupFieldSpec(column="company_name", extractor=_extract_company_name),),
 ))
 # 公司关联职位（通过 company_jobs_sync 写入，与搜索职位 mini 区分）
 register(PlatformConfig(
    platform="zhilian", channel="company", data_type="job",
    table="zhilian_job",
    dedup_fields=(
        DedupFieldSpec(column="number", extractor=_extract_number),
        DedupFieldSpec(column="first_publish_time", extractor=_extract_fpt),
    ),
 ))
--- a/app/services/ingest/dedup.py
+++ b/app/services/ingest/dedup.py
@ -0,0 +1,88 @@
 import json
 from datetime import datetime
 from typing import Dict, Any, List, Tuple
 from clickhouse_connect.driver import AsyncClient
 from app.log import logger
 from app.services.ingest.registry import PlatformConfig
 def build_insert_row(
    config: PlatformConfig, data: Dict[str, Any], channel: str,
 ) -> Tuple[List[str], List[Any]]:
    """构建 ClickHouse 插入行（含 channel 列）"""
    now = datetime.now()
    columns = ["id", "json_data", "channel", "created_at", "updated_at"]
    values: List[Any] = [0, json.dumps(data, ensure_ascii=False), channel, now, now]
    for spec in config.dedup_fields:
        extracted = spec.extractor(data)
        columns.append(spec.column)
        values.append(str(extracted) if extracted else "")
    return columns, values
 async def batch_dedup_filter(
    client: AsyncClient,
    config: PlatformConfig,
    rows: List[Dict[str, Any]],
    all_columns: List[str],
    all_values: List[List[Any]],
 ) -> Tuple[List[List[Any]], int]:
    """批量去重过滤，返回 (过滤后的 values 列表, 被忽略数量)"""
    dedup_cols = config.dedup_columns
    if not dedup_cols or not all_values:
        return all_values, 0
    table = f"job_data.{config.table}"
    # 建立 column name -> index 映射
    col_idx = {name: i for i, name in enumerate(all_columns)}
    if len(dedup_cols) == 1:
        key_col = dedup_cols[0]
        idx = col_idx[key_col]
        candidate_keys = list({str(row[idx]) for row in all_values if row[idx]})
        if not candidate_keys:
            return all_values, 0
        query = (
            f"SELECT {key_col} FROM {table} "
            f"WHERE {key_col} IN {{keys:Array(String)}} "
            f"AND created_at > now() - INTERVAL 30 DAY"
        )
        existing = await client.query(query, parameters={"keys": candidate_keys})
        existing_set = {str(r[0]) for r in existing.result_rows}
        filtered = [row for row in all_values if str(row[idx]) not in existing_set]
        return filtered, len(all_values) - len(filtered)
    if len(dedup_cols) == 2:
        c1, c2 = dedup_cols
        idx1, idx2 = col_idx[c1], col_idx[c2]
        candidate_c1 = list({str(row[idx1]) for row in all_values if row[idx1]})
        if not candidate_c1:
            return all_values, 0
        query = (
            f"SELECT {c1}, {c2} FROM {table} "
            f"WHERE {c1} IN {{keys:Array(String)}} "
            f"AND created_at > now() - INTERVAL 30 DAY"
        )
        existing = await client.query(query, parameters={"keys": candidate_c1})
        existing_map: Dict[str, set] = {}
        for r in existing.result_rows:
            existing_map.setdefault(str(r[0]), set()).add(str(r[1]))
        filtered = [
            row for row in all_values
            if str(row[idx1]) not in existing_map
            or str(row[idx2]) not in existing_map.get(str(row[idx1]), set())
        ]
        return filtered, len(all_values) - len(filtered)
    # 不支持 3+ 列去重，直接返回
    logger.warning(f"不支持 {len(dedup_cols)} 列去重，跳过过滤")
    return all_values, 0
--- a/tests/ingest/init.py
+++ b/tests/ingest/init.py
--- a/tests/ingest/test_dedup.py
+++ b/tests/ingest/test_dedup.py
@ -0,0 +1,155 @@
 """
 dedup.py 测试 — DATA-01 30天窗口去重验证
 使用 asyncio.run() 运行异步函数（避免依赖 pytest-asyncio）
 """
 from __future__ import annotations
 import asyncio
 from unittest.mock import AsyncMock, MagicMock
 import pytest
 from app.services.ingest.dedup import batch_dedup_filter, build_insert_row
 from app.services.ingest.registry import PlatformConfig, DedupFieldSpec
 # ─── 辅助工厂函数 ─────────────────────────────────────
 def _make_config_single(table: str = "boss_job") -> PlatformConfig:
    return PlatformConfig(
        platform="boss", channel="mini", data_type="job",
        table=table,
        dedup_fields=(DedupFieldSpec(column="job_id", extractor=lambda d: d.get("jobId")),),
    )
 def _make_config_double(table: str = "qcwy_job") -> PlatformConfig:
    return PlatformConfig(
        platform="qcwy", channel="mini", data_type="job",
        table=table,
        dedup_fields=(
            DedupFieldSpec(column="job_id", extractor=lambda d: d.get("jobId")),
            DedupFieldSpec(column="update_date_time", extractor=lambda d: d.get("updateDt")),
        ),
    )
 def _make_mock_client(rows: list) -> AsyncMock:
    mock_result = MagicMock()
    mock_result.result_rows = rows
    mock_client = AsyncMock()
    mock_client.query.return_value = mock_result
    return mock_client
 def _make_rows(job_ids: list[str]) -> tuple[list[str], list[list]]:
    columns = ["id", "json_data", "channel", "created_at", "updated_at", "job_id"]
    values = [[0, "{}", "mini", None, None, jid] for jid in job_ids]
    return columns, values
 def _make_double_rows(pairs: list[tuple[str, str]]) -> tuple[list[str], list[list]]:
    columns = ["id", "json_data", "channel", "created_at", "updated_at", "job_id", "update_date_time"]
    values = [[0, "{}", "mini", None, None, jid, udt] for jid, udt in pairs]
    return columns, values
 def _run(coro):
    return asyncio.get_event_loop().run_until_complete(coro)
 # ─── 测试：单字段去重 ─────────────────────────────────
 def test_single_field_dedup_within_30_days():
    """30 天内有相同 job_id → 视为重复，过滤"""
    mock_client = _make_mock_client([("JOB001",)])  # 已存在
    config = _make_config_single()
    columns, values = _make_rows(["JOB001", "JOB002"])
    rows = [{"jobId": "JOB001"}, {"jobId": "JOB002"}]
    filtered, ignored = _run(batch_dedup_filter(mock_client, config, rows, columns, values))
    assert ignored == 1
    assert len(filtered) == 1
    assert filtered[0][5] == "JOB002"
    # 验证 SQL 包含 30 天窗口
    sql = mock_client.query.call_args[0][0]
    assert "INTERVAL 30 DAY" in sql, f"SQL 应包含 INTERVAL 30 DAY，实际: {sql}"
 def test_single_field_dedup_no_existing():
    """无现有记录 → 允许全部入库"""
    mock_client = _make_mock_client([])
    config = _make_config_single()
    columns, values = _make_rows(["JOB_NEW_1", "JOB_NEW_2"])
    rows = [{"jobId": "JOB_NEW_1"}, {"jobId": "JOB_NEW_2"}]
    filtered, ignored = _run(batch_dedup_filter(mock_client, config, rows, columns, values))
    assert ignored == 0
    assert len(filtered) == 2
 def test_single_field_dedup_sql_has_30_day_window():
    """验证单字段 dedup SQL 中包含 30 天时间窗口"""
    mock_client = _make_mock_client([])
    config = _make_config_single()
    columns, values = _make_rows(["JOB_X"])
    rows = [{"jobId": "JOB_X"}]
    _run(batch_dedup_filter(mock_client, config, rows, columns, values))
    assert mock_client.query.called
    sql = mock_client.query.call_args[0][0]
    assert "INTERVAL 30 DAY" in sql
 # ─── 测试：双字段去重 ─────────────────────────────────
 def test_double_field_dedup_within_30_days():
    """30 天内双字段都匹配 → 视为重复，过滤"""
    mock_client = _make_mock_client([("JOB001", "2026-03-01")])  # 已存在
    config = _make_config_double()
    columns, values = _make_double_rows([("JOB001", "2026-03-01"), ("JOB002", "2026-03-10")])
    rows = [{"jobId": "JOB001", "updateDt": "2026-03-01"}, {"jobId": "JOB002", "updateDt": "2026-03-10"}]
    filtered, ignored = _run(batch_dedup_filter(mock_client, config, rows, columns, values))
    assert ignored == 1
    assert len(filtered) == 1
    sql = mock_client.query.call_args[0][0]
    assert "INTERVAL 30 DAY" in sql
 def test_dedup_empty_input():
    """空 all_values → 直接返回，不调用 ClickHouse"""
    mock_client = AsyncMock()
    config = _make_config_single()
    columns = ["id", "json_data", "channel", "created_at", "updated_at", "job_id"]
    filtered, ignored = _run(batch_dedup_filter(mock_client, config, [], columns, []))
    assert ignored == 0
    assert filtered == []
    mock_client.query.assert_not_called()
 # ─── 测试：build_insert_row ────────────────────────────
 def test_build_insert_row_has_channel():
    """build_insert_row 生成的列中包含 channel 和 job_id"""
    config = _make_config_single()
    data = {"jobId": "JOB999"}
    columns, values = build_insert_row(config, data, "mini")
    assert "channel" in columns
    channel_idx = columns.index("channel")
    assert values[channel_idx] == "mini"
    assert "job_id" in columns
    job_id_idx = columns.index("job_id")
    assert values[job_id_idx] == "JOB999"