https://gluebenchmark.com/ General Language Understanding Evaluation (GLUE) 지표는 자연언어이해를 위한 시스템을 훈련, 평가, 분석하기 위한 데이터를 모아놓은 것이다. GLUE에는 아래 항목이 포함되어있다: 9개 문장 혹은 문장 쌍의 지표는 현존하는 데이터셋에 기반하고 있으며 폭 넓은 데이터셋의 크기, 장르, 난이도를 망라할 수 있도록 선택되었다. 데이터셋(진단셋)은 넓은 범위의 자연언어를 대상으로 하는 모델을 평가하고 분석할 수 있도록 설계되었다. 지표의 성능을 추적하는 공적인 리더보드와 진단셋을 바탕으로 하는 모델의 성능을 가시화하는 계기판이 있다. GLUE 지표는 모델에 구속받지 않기(model-agnostic) 때문에 어떤 시스템도 문장/..