기타 메모

GLUE Benchmark

Jonchann 2019. 3. 31. 15:30

https://gluebenchmark.com/

 

General Language Understanding Evaluation (GLUE) 지표는 자연언어이해를 위한 시스템을 훈련, 평가, 분석하기 위한 데이터를 모아놓은 것이다. GLUE에는 아래 항목이 포함되어있다:

 

  • 9개 문장 혹은 문장 쌍의 지표는 현존하는 데이터셋에 기반하고 있으며 폭 넓은 데이터셋의 크기, 장르, 난이도를 망라할 수 있도록 선택되었다.
  • 데이터셋(진단셋)은 넓은 범위의 자연언어를 대상으로 하는 모델을 평가하고 분석할 수 있도록 설계되었다.
  • 지표의 성능을 추적하는 공적인 리더보드와 진단셋을 바탕으로 하는 모델의 성능을 가시화하는 계기판이 있다. 

 

GLUE 지표는 모델에 구속받지 않기(model-agnostic) 때문에 어떤 시스템도 문장/ 문장 쌍을 처리할 수 있고 이에 상응하는 예측값을 내놓을 수 있다(eligible to participate). 평가(benchmark) 태스크는 파라미터 공유 혹은 전이 학습 기술 전반에(across) 정보를 공유하는데 활용하는 모델을 뒷받침하기(favor) 위해(so as to) 선택되었다. GLUE의 궁극적인 목표는 일반적이고 탄탄한 자연언어 이해 시스템의 개발 연구를 이끌어가는 것이다.