Top N Query

Top N Query

이 문서에서는 Top N Query의 필요성과 이용 방법에 대해서 살펴본다.

Top N Query의 필요성

Top N Query는 데이터 집합에서 원하는 행 구간을 조회하도록 하는 구문이다. 예를 들어 다음과 같은 사례에 적용할 수 있다.

  • 음원차트 Top 100

  • 인기순위 Top 10

  • 판매량 Top 3

  • 31번부터 40번까지 게시글

rownum

select rownum, product.* from product;

조회하면 다음과 같은 결과집합이 출력된다.

조건을 부여해도 rownum은 순차적으로 부여된다.

select * from product where price <= 2000;

결과집합은 다음과 같이 출력되며, rownum은 결과집합에 순서대로 부여되는 것을 확인할 수 있다.

따라서 다음과 같은 조건의 사용도 가능하다.

select rownum, product.* from product where rownum <= 3;

rownum의 문제

우선 다음 구문을 실행한 결과를 살펴본 뒤 문제점에 대해서 알아보도록 한다.

select rownum, product.* from product order by price desc;

가격이 비싼 순서대로 정렬하는 구문이며, 다음과 같은 출력 결과가 나온다.

rownum이 순서대로 출력되지 않는데 이는 rownum의 문제보다는 select의 실행되는 순서 때문에 발생하는 문제라고 보는 것이 맞다.

select는 다음과 같은 순서로 해석된다.

select  		---(1)
rownum, product.* 	---(3)
from product		---(2)
order by price desc;	---(4)

여기서 중요한 부분은 정렬이 가장 마지막에 해석된다는 점인데, rownum이 부여되고 나서 정렬이 이루어지기 때문에 우리가 원하는 방식으로 rownum이 출력되지 않는 현상이 발생한다.

서브쿼리(sub query)를 이용한 해결

순서가 문제라면 서브쿼리(sub query)를 이용하여 순서를 변경해줄 수 있다. 현재 rownum이 순서대로 부여되지 않는 이유는 rownum을 부여한 이후 정렬이 이루어지기 때문이므로, 정렬을 한 이후 rownum을 부여할 수 있도록 정렬 코드를 서브쿼리로 실행한다.

select rownum, TMP.* from (
	select * from product order by price desc
) TMP;

서브쿼리의 위치를 보면 조회할 대상을 의미하는 from 뒤에 위치하는데, 이는 먼저 정렬을 한 결과를 TMP라고 부르고, product 테이블이 아닌 TMP에서 rownum을 붙여 재 조회 하겠다는 의미로 해석할 수 있다. 즉, 서브쿼리를 활용하여 정렬을 먼저 수행하도록 변경하였고, 출력 결과를 보면 문제가 해결되었음을 확인할 수 있다.

이를 이용하여 Top 3를 계산할 수 있다.

select rownum, TMP.* from (
    select * from product order by price desc
)TMP where rownum <= 3;

TMP는 별칭이며, 다른 별칭을 사용해도 무방하다.

계속되는 문제

아직 해결되지 않은 문제가 남아있다. Top 3, Top 5등 rownum이 1부터 조회되는 경우는 문제 없이 결과집합이 출력되지만, rownum이 1부터 조회되는 경우가 아니면 정상적으로 조회가 이루어지지 않는다.

select rownum, TMP.* from (
    select * from product order by price desc
)TMP where rownum between 3 and 5;

위 구문은 데이터가 있음에도 조회가 이루어지지 않는데, 이는 rownum의 특징과 연관이 있다.

rownum은 select 구문이 실행되어 결과집합이 만들어지면서 결과집합의 행에 부여되는 번호이다. 그리고 rownum은 1번부터 생성된다. 이는 다르게 말하면 1번이 생성되지 않으면 rownum은 생성되지 않는다는 것을 의미한다.

최종 문제 해결

rownum을 부여하면서 rownum을 조건으로 사용하면 1번부터 시작하는 경우가 아니면 조건이 성립하지 않는 문제를 해결하기 위해서 다시 한 번 서브쿼리를 사용한다. 서브쿼리를 사용하여 rownum을 부여한 뒤 조건으로 필터링 하도록 순서를 변경한다.

select * from (    
    select rownum rn, TMP.* from (
        select * from product order by price desc
    )TMP
) where rn between 3 and 5;

rownum 뒤에 rn이라는 별칭을 붙여 모호성을 방지하도록 설정한다. 별칭을 부여하지 않을 경우 세 번의 select가 각각의 rownum을 가지기 때문에 잘못된 rownum이 선택되어 결과가 나오지 않는다.

결론

결론적으로 Top N Query는 다음과 같은 공식을 사용한다.

select * from (
    select rownum rn, TMP.* from(
        -- 원하는 데이터를 조회하는 구문
    ) TMP
) where rn between 시작번호 and 종료번호;

Last updated