[평가] BIRD-INTERACT 기반 평가 파이프라인 도입

### 문제 요약 (Summary)

기존 Text-to-SQL 평가는 단일 턴(single-turn) 기반으로, 실제 엔터프라이즈 환경의 멀티턴 인터랙션을 반영하지 못함. Lang2SQL이 실용적인 Text-to-SQL 프레임워크를 지향한다면, 정적 벤치마크(BIRD, Spider)만으로는 실제 사용성을 검증하기 어려움.
### 제안 (Benchmark)

BIRD-INTERACT (ICLR 2026 Oral) 기반 평가 도입 제안

🔗 https://bird-interact.github.io/

### BIRD-INTERACT 소개

동적 인터랙션 기반 Text-to-SQL 벤치마크
2가지 평가 모드 지원:

c-Interact: 고정된 워크플로우의 대화형 평가 (passive)
a-Interact: 모델이 주도하는 에이전틱 평가 (active)


CRUD 전반을 포함한 600개 태스크, 계층적 지식베이스(HKB) + 유저 시뮬레이터 활용
SOTA 모델도 Full 기준 ≈16% 성공률 → 난이도 높고 실용성 있는 벤치마크

### 도입 방안

우선 mini-interact (SQLite, 300 tasks, Docker 불필요)로 가볍게 시작 가능
HuggingFace에서 바로 데이터 로드 가능: birdsql/mini-interact
Lang2SQL 에이전트의 멀티턴 대응 능력 검증에 활용

### 기대 효과

단순 SQL 정확도를 넘어 실제 인터랙션 품질 측정 가능
Lang2SQL의 엔터프라이즈 적용 가능성을 실증적으로 보여줄 수 있음

### 참고

Paper: https://arxiv.org/abs/2510.05318
GitHub: https://github.com/bird-bench/BIRD-Interact
Dataset: https://huggingface.co/datasets/birdsql/mini-interact



Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[평가] BIRD-INTERACT 기반 평가 파이프라인 도입 #240

문제 요약 (Summary)

제안 (Benchmark)

BIRD-INTERACT 소개

도입 방안

기대 효과

참고

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

[평가] BIRD-INTERACT 기반 평가 파이프라인 도입 #240

Description

문제 요약 (Summary)

제안 (Benchmark)

BIRD-INTERACT 소개

도입 방안

기대 효과

참고

Metadata

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Issue actions