Skip to content

[평가] BIRD-INTERACT 기반 평가 파이프라인 도입 #240

@thrcle

Description

@thrcle

문제 요약 (Summary)

기존 Text-to-SQL 평가는 단일 턴(single-turn) 기반으로, 실제 엔터프라이즈 환경의 멀티턴 인터랙션을 반영하지 못함. Lang2SQL이 실용적인 Text-to-SQL 프레임워크를 지향한다면, 정적 벤치마크(BIRD, Spider)만으로는 실제 사용성을 검증하기 어려움.

제안 (Benchmark)

BIRD-INTERACT (ICLR 2026 Oral) 기반 평가 도입 제안

🔗 https://bird-interact.github.io/

BIRD-INTERACT 소개

동적 인터랙션 기반 Text-to-SQL 벤치마크
2가지 평가 모드 지원:

c-Interact: 고정된 워크플로우의 대화형 평가 (passive)
a-Interact: 모델이 주도하는 에이전틱 평가 (active)

CRUD 전반을 포함한 600개 태스크, 계층적 지식베이스(HKB) + 유저 시뮬레이터 활용
SOTA 모델도 Full 기준 ≈16% 성공률 → 난이도 높고 실용성 있는 벤치마크

도입 방안

우선 mini-interact (SQLite, 300 tasks, Docker 불필요)로 가볍게 시작 가능
HuggingFace에서 바로 데이터 로드 가능: birdsql/mini-interact
Lang2SQL 에이전트의 멀티턴 대응 능력 검증에 활용

기대 효과

단순 SQL 정확도를 넘어 실제 인터랙션 품질 측정 가능
Lang2SQL의 엔터프라이즈 적용 가능성을 실증적으로 보여줄 수 있음

참고

Paper: https://arxiv.org/abs/2510.05318
GitHub: https://github.com/bird-bench/BIRD-Interact
Dataset: https://huggingface.co/datasets/birdsql/mini-interact

Metadata

Metadata

Assignees

No one assigned

    Labels

    agentThe core processing component that interprets user input, manages workflows, and orchestrates the SQ

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions