검색엔진이란? - SE(Search Engine) | Notion

Google Analytics

Google Search Console

1. 검색 엔진의 기본 원리

검색 엔진은 인터넷 상의 방대한 웹페이지들 중 사용자가 입력한 검색어(Query)에 가장 적합한 결과를 찾아내기 위한 시스템입니다. 기본적으로 검색 엔진은 다음 세 가지 주요 과정을 거칩니다.

1.1. 크롤링 (Crawling)

정의: 웹 크롤러(또는 스파이더)는 웹상의 다양한 페이지를 자동으로 탐색하며, 해당 페이지의 콘텐츠와 링크 정보를 수집합니다.
과정:
- 시작점(URL 목록)에서 시작하여 페이지를 방문하고, 그 페이지 내의 모든 링크를 추출합니다.
- 추출한 링크를 바탕으로 계속해서 다른 페이지들을 방문하는 방식으로 전체 웹을 탐색합니다.
목적: 웹 전체의 최신 정보를 수집하여, 데이터베이스(색인, 인덱스)에 저장하기 위함입니다.

1.2. 인덱싱 (Indexing)

정의: 크롤링한 웹페이지의 콘텐츠를 분석하고, 검색에 빠르게 응답할 수 있도록 데이터베이스에 구조화된 형태로 저장하는 과정입니다.
과정:
- 각 페이지의 텍스트, 메타데이터, 이미지, 링크 등 다양한 요소를 파싱합니다.
- 검색에 유용한 키워드와 문서의 연관성을 기반으로 색인을 생성합니다.
목적: 사용자가 검색할 때, 해당 색인에서 빠르게 관련 문서를 찾아낼 수 있도록 하기 위함입니다.

1.3. 랭킹 (Ranking)

정의: 인덱스에 저장된 문서들 중에서 사용자의 검색어와 가장 관련성이 높은 순서대로 결과를 정렬하는 과정입니다.
과정:
- 랭킹 알고리즘: 대표적으로 구글의 PageRank와 같은 알고리즘은 웹페이지의 링크 구조, 콘텐츠 품질, 사용자 경험 등 다양한 요소를 고려합니다.
- 요소:
  - 콘텐츠의 질과 관련성: 검색어와 페이지 내용의 연관성
  - 링크 신뢰도: 외부 사이트에서 해당 페이지로 연결된 링크의 수와 질
  - 사용자 행동 데이터: 클릭률, 체류 시간, 반송률 등
목적: 사용자가 입력한 검색어에 대해 가장 유용한 정보를 우선적으로 제공하여 만족도를 높이는 것입니다.

2. 검색 엔진의 작동 방식

검색 엔진은 위의 세 가지 과정을 주기적으로 반복하면서 최신 웹 정보를 유지합니다. 전체 과정은 다음과 같이 요약할 수 있습니다.