네이버 통합검색의 원리 : 검색엔진의 경쟁력을 결정짓는, 검색 모델링

여러분들도 잘 아시는 것처럼 검색엔진은 웹에 있는 정보들을 수집하는 역할을 합니다. 그러나, 똑똑한 검색엔진이 사용자의 의도에 맞는 문서를 빨리 찾았다 해도 이를 아무 의미나 원칙 없이 나열하기만 한다면 안될 것입니다. 주어진 상황에 더 적합한 정보를 상단에 보여줌으로써 이용자가 원하는 문서를 조금이라도 더 빨리 찾을 수 있도록 해야 진정으로 스마트한 검색서비스라고 할 수 있을 것입니다.

검색엔진이 적합한 문서의 순서대로 검색결과를 보여주는 작업을 위해 수학적 혹은 경험적인 공식(모델)을 사용하는 것을 검색 모델링이라고 합니다. 이 검색 모델링을 얼마나 잘 적용하느냐에 따라 이용자들의 만족도는 크게 달라집니다. 말 그대로 검색서비스의 IQ가 여기에 달려있다고 해도 과언이 아닙니다.

네이버가 최초로 통합검색을 선보인 이후 국내외 다른 검색엔진에서도 통합검색과 비슷한 서비스를 제공하고 있지만, 이들과 네이버의 검색결과가 다르게 나타나는 이유 중 가장 큰 하나는 각 검색 사이트에 따라 적용하는 기본 원리, 즉 검색 모델링이 다르기 때문입니다.

실제로 검색 모델링에는 매우 복잡한 수학적인 계산과 확률 모델 등이 들어가게 됩니다. 어려운 수식 밑바탕에 깔린 네이버 통합검색의 비밀, 네이버 통합검색의 랭킹시스템에 대해 살짝 알아볼까요?

다양한 이용자의 니즈에 대한 답을 한번에 보여주는 Multi-Ranking System

네이버 통합검색을 이용하시다 보면, ‘최신뉴스’, ‘이미지’, ‘카페 블로그’ 등 정보의 특성에 따라 검색결과가 구분되어 보여지는 것을 보실 수 있습니다. 이처럼 웹에 있는 다양한 데이터베이스를 특성에 따라 구분한(이 작업을 클러스터링이라고 합니다) 통합검색의 기본단위를 ‘콜렉션(Collection)’이라고 합니다.

네이버 통합검색은 뉴스, 이미지, 지식iN, 사이트, 웹, 지역 정보 등 수십여 개에 달하는 콜렉션을 제공하고 있으며, 검색어에 따라 검색결과에 노출되는 콜렉션의 개수와 종류가 자동적으로 달라지게 됩니다.

특히, 네이버 통합검색에서는 각 콜렉션 별로 특성에 따른 각기 다른 랭킹 모델을 적용하고 있는데요, 이를 멀티-랭킹시스템(Multi-Ranking System)이라고 합니다.

네이버 멀티-랭킹시스템에 따라, 최신뉴스 콜렉션에는 최신성이 중요하게 반영된 ‘뉴스랭킹모델’이, 지식iN에는 최신성, 유사도 이외에도 답변을 한 이용자의 신뢰도까지 고려한 ‘지식iN랭킹모델’이 적용되기 때문에, 네이버 통합검색에서는 각 콜렉션 별로 가장 양질의 정보가 나올 수 있게 됩니다.

특히, 콜렉션의 랭킹모델은 또 다른 콜렉션의 모델과도 미세하게 조율되어 있어, 전체적으로 각 콜렉션 마다 가장 적합하면서도 서로 중복되지 않는 검색결과를 보여주도록 제공되고 있습니다. 이 때문에 네이버의 통합검색결과는 전체적으로 다양한 정보를 두루 제공할 수 있게 되어, 더욱 양질의 결과를 제공해드릴 수 있게 됩니다.

예를 들어 살펴볼까요? 최근 개최된 윔블던 테니스에서 우승한 ‘로저 페더러’ 키워드 검색결과를 보면, 최신 뉴스 콜렉션에는 페더러의 우승 뉴스가, 블로그 콜렉션에는 슈테피 그라프와 로저 페더러를 비교한 블로거의 평가글이, 사이트 콜렉션에는 페더러의 공식 홈페이지 및 관련 사이트 검색 결과가 나오고 있어, 각 콜렉션 마다 페더러를 검색한 이용자들에게 유용한 정보를 제공해주고 있다는 것을 볼 수 있습니다.

이러한 멀티랭킹시스템으로 인해 네이버 웹 페이지 검색결과는 다른 검색엔진의 웹 검색과는 다른 랭킹 시스템을 이용하고 있으며, 1:1로 비교하는건 무리가 있을 수 있습니다. 그 이유는 만약, 해외 검색엔진과 동일한 알고리즘을 네이버 웹문서 컬렉션에 적용한다면, 사이트, 블로그, 뉴스 등 다른 컬렉션과 상당 부분 중복되는 결과를 보여줘 만족도가 떨어질 수 있기 때문입니다.

콜렉션에도 랭킹이 적용된다?! Naver Collection Ranking!

네이버 통합검색의 또 다른 비밀은 바로, 문서뿐 아니라 콜렉션 자체에도 랭킹이 적용된다는 사실입니다. 콜렉션 랭킹(Collection Ranking)이라고 부르는 이 기술에 따라 네이버 통합검색은 ‘지식iN’, ‘사전’, ‘뉴스’, ‘블로그’ 등 콜렉션들의 노출순서가 고정되어 있지 않고, 그 순서가 유동적으로 변화하도록 합니다.

콜렉션랭킹의 기본 아이디어는 네티즌들의 검색행동분석을 통해 원하는 정보가 위치할 확률이 높은 콜렉션을 순서대로 보여준다는 점입니다. 이를 통해 이용자들은 좀 더 빠른 시간 내에 원하는 정보가 담긴 콜렉션을 찾게 될 확률이 그만큼 높아지는 것이지요.

따라서, 네이버 통합검색은 지금 현재 많은 이용자들이 원하는 정보가 어떤 것인지에 따라 동일한 검색어에 대해서도 콜렉션의 노출순서가 달라질 수 있게 됩니다.

콜렉션 랭킹을 통해 통합검색에 노출된 콜렉션 순서를 살펴보면, 같은 검색어를 입력한 다른 이용자들은 어떤 콜렉션의 정보를 많이 찾았는지 알아볼 수 있습니다. 예를 들면, ‘서머타임’이라는 키워드의 경우 서머타임의 뜻이나 도입 배경 등에 대한 이용자들의 니즈가 높아 지식iN, 사전 콜렉션이 상단에 위치하고 있고, 가수 ‘이효리’의 경우는 인물정보와 음악 콜렉션이 검색결과 상단에 위치하고 있다는 것을 알 수 있습니다.

네이버 통합검색에는 멀티-랭킹시스템과 콜렉션랭킹 이외에도 더욱 다양한 기술과 비밀이 숨겨져 있습니다. 그 중에서도 특히 중요하게 꼽히는 것은 대용량 처리기술입니다. 한국은 세계에서 가장 이용자들의 인터넷 이용이 활발한 곳입니다. 네이버와 같이 하루 1,600만 명이 방문하며 1억 번 이상의 검색이 이뤄지는 곳(2007년 7월 현재, 1초에 1,172번 이상의 검색이 이뤄지고 있습니다)에서는 질 높은 검색 서비스 못지 않게 빠르고 안정적인 서비스도 중요하게 됩니다. 이를 위해서 네이버는 대용량 검색 서비스를 위한 R&D에도 노력의 고삐를 늦추지 않고 있답니다.

:: 네이버에서 정의하는 스팸 게시물은?

네이버는 검색 서비스를 이용하는 이용자를 보호하기 위하여 법에서 규정하는 법적 의무를 다하는 동시에 자율적으로 스팸 규제를 하고 있습니다.

네이버가 정의하는 스팸 게시물은 검색엔진에 노출되는 점을 악용하여, 이용자의 검색의도에 맞지 않아 이용자가 원하지 않는 시간낭비를 발생시키거나, 예기치 않은 피해를 발생하는 게시물을 모두 포괄합니다. 대부분의 홍보 상업성 게시물이 이에 해당한다고 할 수 있습니다. 또한, 성인들에게는 불쾌감과 정신적 피로를 유발하고, 청소년들에게 부정적 영향을 줄 수 있는 음란 게시물이나 이용자의 컴퓨터에 악성 프로그램이나 원하지 않는 코드 등을 설치하는 게시물도 포함됩니다.

물론, 홍보상업성이라는 요소가 스팸을 구성하는 절대적인 기준이 될 수는 없습니다. ‘상업적인 정보’에 대한 니즈를 가진 이용자도 존재하기 때문입니다. 그러나 대부분의 스팸성 게시물은 이용자가 입력한 키워드에 적합한 정보를 가지기 보다는 이용자가 입력하는 키워드를 악용해 홍보상업성 콘텐츠를 노출하거나, 혹은 다른 사이트로 유도하려는 목적을 가지고 있습니다. 즉, 검색결과에 게시물을 노출시킴으로써 일방적으로 이용자에게 홍보상업성 내용을 전달하는 게시물들은 스팸이 된다고 하겠습니다.

네이버에서 허용하지 않는 스팸 게시물의 예시는 아래와 같습니다.

1. 성인음란성 게시물

네이버는 성인인증 절차를 도입하여 성인음란성 게시물이 19세 미만의 미성년자에게 노출되는 것을 차단하고 있습니다. 그럼에도 불구하고 검색 결과를 이용한 음란성 게시물 유포로 사회 문제를 야기하거나 성인에게 불쾌감과 정신적 피로를 유발하는 경우가 발생할 수 있습니다.

네이버는 이러한 음란성 게시물의 검색 결과 노출을 철저히 차단하고 있으며 편법 등을 동원하여 등록된 게시물도 발견하는 즉시 검색 결과에서 제외 처리하고 있습니다.




2. 악성코드 포함 게시물

인터넷에 있는 게시물을 클릭한 후, 원하는 정보가 없어 게시물을 닫았을 때, 팝업창이 뜨는 경우가 있습니다. 확인하지 않으려고 ‘취소’를 누르면 창이 여러 개 뜨면서 해당 사이트를 즐겨찾기에 추가하겠느냐는 팝업창이 뜨거나 가입을 종용하기도 합니다.

이러한 현상은 모두 이른바 ‘악성코드가 포함된 게시물’을 클릭하면 나타나는 현상입니다. 악성코드가 포함된 게시물이란 검색 결과에 반영된 게시물을 통하여 1) 악성코드, 악성 해킹, 스파이웨어, 바이러스를 다운로드, 유포시키는 페이지 2) 특정 사이트나 팝업창을 반복해서 뜨게 하거나 3) 사용자도 모르게 해당 사이트를 메인홈페이지로 지정하거나 즐겨찾기에 추가시키는 경우 4) 사용자가 승인하지 않은 불법 프로그램을 사용자의 홈페이지에 설치하는 경우 등을 의미합니다.

네이버는 사용자가 의도한 적이 없음에도 불구하고 사용자의 동의 없이 불법 프로그램을 설치하거나 특정 홈페이지로 유도하는 악성코드 포함 게시물을 검색 결과에 노출하지 않으며 발견하는 즉시 검색 결과에서 제외 처리하고 있습니다.


3. 홍보상업성 게시물

검색 결과에 반영되는 게시물에 특정 키워드를 반복적으로 등록해 검색 결과 조작을 시도하거나, 실시간급상승검색어 등에 노출되는 키워드를 이용하여 검색 결과에서 이용자를 유인하기 위해 생성된 게시물들은 네이버 검색 결과에서 노출되지 않을 수 있습니다.

또한, 위와 같이 사용자를 유인할 목적으로 문맥의 흐름과 상관없이 제목이나 본문에 특정 단어/문구를 의도적으로 반복 삽입하여 검색결과의 상단을 차지한 게시물도 검색 결과에 노출되지 않을 수 있습니다.


4. 불법 게시물

네이버는 정보통신보호법 등 현행법에 근거하여 불법으로 규정된 행위와 관련된 일체의 게시물을 네이버 검색결과에 반영하지 않도록 조치하고 있습니다. 사회 불안을 조성하는 불법 총기?마약류 거래 알선, 불법/범죄를 조장하는 정보를 포함하는 페이지 등, 현행법에 위반되는 사항을 포함한 게시물은 모두 발견되는 즉시 검색 결과에서 제외 처리됩니다.