문제 요약 (Summary)
기존 Text-to-SQL 평가는 단일 턴(single-turn) 기반으로, 실제 엔터프라이즈 환경의 멀티턴 인터랙션을 반영하지 못함. Lang2SQL이 실용적인 Text-to-SQL 프레임워크를 지향한다면, 정적 벤치마크(BIRD, Spider)만으로는 실제 사용성을 검증하기 어려움.
제안 (Benchmark)
BIRD-INTERACT (ICLR 2026 Oral) 기반 평가 도입 제안
🔗 https://bird-interact.github.io/
BIRD-INTERACT 소개
동적 인터랙션 기반 Text-to-SQL 벤치마크
2가지 평가 모드 지원:
c-Interact: 고정된 워크플로우의 대화형 평가 (passive)
a-Interact: 모델이 주도하는 에이전틱 평가 (active)
CRUD 전반을 포함한 600개 태스크, 계층적 지식베이스(HKB) + 유저 시뮬레이터 활용
SOTA 모델도 Full 기준 ≈16% 성공률 → 난이도 높고 실용성 있는 벤치마크
도입 방안
우선 mini-interact (SQLite, 300 tasks, Docker 불필요)로 가볍게 시작 가능
HuggingFace에서 바로 데이터 로드 가능: birdsql/mini-interact
Lang2SQL 에이전트의 멀티턴 대응 능력 검증에 활용
기대 효과
단순 SQL 정확도를 넘어 실제 인터랙션 품질 측정 가능
Lang2SQL의 엔터프라이즈 적용 가능성을 실증적으로 보여줄 수 있음
참고
Paper: https://arxiv.org/abs/2510.05318
GitHub: https://github.com/bird-bench/BIRD-Interact
Dataset: https://huggingface.co/datasets/birdsql/mini-interact
문제 요약 (Summary)
기존 Text-to-SQL 평가는 단일 턴(single-turn) 기반으로, 실제 엔터프라이즈 환경의 멀티턴 인터랙션을 반영하지 못함. Lang2SQL이 실용적인 Text-to-SQL 프레임워크를 지향한다면, 정적 벤치마크(BIRD, Spider)만으로는 실제 사용성을 검증하기 어려움.
제안 (Benchmark)
BIRD-INTERACT (ICLR 2026 Oral) 기반 평가 도입 제안
🔗 https://bird-interact.github.io/
BIRD-INTERACT 소개
동적 인터랙션 기반 Text-to-SQL 벤치마크
2가지 평가 모드 지원:
c-Interact: 고정된 워크플로우의 대화형 평가 (passive)
a-Interact: 모델이 주도하는 에이전틱 평가 (active)
CRUD 전반을 포함한 600개 태스크, 계층적 지식베이스(HKB) + 유저 시뮬레이터 활용
SOTA 모델도 Full 기준 ≈16% 성공률 → 난이도 높고 실용성 있는 벤치마크
도입 방안
우선 mini-interact (SQLite, 300 tasks, Docker 불필요)로 가볍게 시작 가능
HuggingFace에서 바로 데이터 로드 가능: birdsql/mini-interact
Lang2SQL 에이전트의 멀티턴 대응 능력 검증에 활용
기대 효과
단순 SQL 정확도를 넘어 실제 인터랙션 품질 측정 가능
Lang2SQL의 엔터프라이즈 적용 가능성을 실증적으로 보여줄 수 있음
참고
Paper: https://arxiv.org/abs/2510.05318
GitHub: https://github.com/bird-bench/BIRD-Interact
Dataset: https://huggingface.co/datasets/birdsql/mini-interact