자바의 default 캐릭터셋을 설정하지 않으면 운영체제마다 다를 수 있지만,
UTF-8을 사용한다.
EUC-KR
UTF-8
- 한글은 최대 3 바이트를 사용해 표현(가변)
- 영어는 1 바이트를 사용해 표현
UTF-16
- 한글은 2, 4비트를 사용해 포현 (고정)
- 영어도 2 바이트
UTF-8 vs UTF-16
자바에서 UTF-8과 UTF-16이 한글이 3바이트와 4바이트로 나올때 왜 UTF-16이 1바이트 더 먹는지
- UTF-16의 경우 자신이 가지고 있는 최소 공간에 BMP 영역의 모든 문자를 담을 수 있지만, UTF-8의 경우 FF의 범위가 넘어가는 문자의 경우 자신의 영역을 추가 확장한 뒤 해당 문자를 담아야 한다.