Top N Query
Last updated
Last updated
이 문서에서는 Top N Query의 필요성과 이용 방법에 대해서 살펴본다.
Top N Query는 데이터 집합에서 원하는 행 구간을 조회하도록 하는 구문이다. 예를 들어 다음과 같은 사례에 적용할 수 있다.
음원차트 Top 100
인기순위 Top 10
판매량 Top 3
31번부터 40번까지 게시글
Oracle DBMS 에서는 select를 통해 나온 결과집합에 rownum이라는 속성을 추가하여 행 번호를 부여한다. 이 rownum을 이용하여 원하는 데이터 구간을 조회할 수 있는 구문을 작성한다. 사용할 데이터 테이블은 을 사용한다.
조회하면 다음과 같은 결과집합이 출력된다.
조건을 부여해도 rownum은 순차적으로 부여된다.
결과집합은 다음과 같이 출력되며, rownum은 결과집합에 순서대로 부여되는 것을 확인할 수 있다.
따라서 다음과 같은 조건의 사용도 가능하다.
우선 다음 구문을 실행한 결과를 살펴본 뒤 문제점에 대해서 알아보도록 한다.
가격이 비싼 순서대로 정렬하는 구문이며, 다음과 같은 출력 결과가 나온다.
rownum이 순서대로 출력되지 않는데 이는 rownum의 문제보다는 select의 실행되는 순서 때문에 발생하는 문제라고 보는 것이 맞다.
select는 다음과 같은 순서로 해석된다.
여기서 중요한 부분은 정렬이 가장 마지막에 해석된다는 점인데, rownum이 부여되고 나서 정렬이 이루어지기 때문에 우리가 원하는 방식으로 rownum이 출력되지 않는 현상이 발생한다.
순서가 문제라면 서브쿼리(sub query)를 이용하여 순서를 변경해줄 수 있다. 현재 rownum이 순서대로 부여되지 않는 이유는 rownum을 부여한 이후 정렬이 이루어지기 때문이므로, 정렬을 한 이후 rownum을 부여할 수 있도록 정렬 코드를 서브쿼리로 실행한다.
서브쿼리의 위치를 보면 조회할 대상을 의미하는 from 뒤에 위치하는데, 이는 먼저 정렬을 한 결과를 TMP라고 부르고, product 테이블이 아닌 TMP에서 rownum을 붙여 재 조회 하겠다는 의미로 해석할 수 있다. 즉, 서브쿼리를 활용하여 정렬을 먼저 수행하도록 변경하였고, 출력 결과를 보면 문제가 해결되었음을 확인할 수 있다.
이를 이용하여 Top 3를 계산할 수 있다.
TMP는 별칭이며, 다른 별칭을 사용해도 무방하다.
아직 해결되지 않은 문제가 남아있다. Top 3, Top 5등 rownum이 1부터 조회되는 경우는 문제 없이 결과집합이 출력되지만, rownum이 1부터 조회되는 경우가 아니면 정상적으로 조회가 이루어지지 않는다.
위 구문은 데이터가 있음에도 조회가 이루어지지 않는데, 이는 rownum의 특징과 연관이 있다.
rownum은 select 구문이 실행되어 결과집합이 만들어지면서 결과집합의 행에 부여되는 번호이다. 그리고 rownum은 1번부터 생성된다. 이는 다르게 말하면 1번이 생성되지 않으면 rownum은 생성되지 않는다는 것을 의미한다.
rownum을 부여하면서 rownum을 조건으로 사용하면 1번부터 시작하는 경우가 아니면 조건이 성립하지 않는 문제를 해결하기 위해서 다시 한 번 서브쿼리를 사용한다. 서브쿼리를 사용하여 rownum을 부여한 뒤 조건으로 필터링 하도록 순서를 변경한다.
rownum 뒤에 rn이라는 별칭을 붙여 모호성을 방지하도록 설정한다. 별칭을 부여하지 않을 경우 세 번의 select가 각각의 rownum을 가지기 때문에 잘못된 rownum이 선택되어 결과가 나오지 않는다.
결론적으로 Top N Query는 다음과 같은 공식을 사용한다.