검색엔진이 내 사이트를 처음 방문했을 때, 어디부터 둘러봐야 할지 알려주는 안내판 역할을 하는 두 가지 파일이 사이트맵과 robots.txt입니다.
사이트맵(sitemap.xml)이란
사이트 안의 모든 페이지 목록을 검색엔진이 읽기 쉬운 형식으로 정리한 파일입니다. 사이트맵을 제출하면 검색엔진이 새 글을 더 빠르게 발견하고 색인에 등록할 수 있습니다.
티스토리, 워드프레스 같은 플랫폼은 대부분 사이트맵을 자동으로 생성해줍니다. 보통 내도메인/sitemap.xml 경로로 확인할 수 있습니다.
이 주소를 구글 서치콘솔과 네이버 서치어드바이저에 각각 제출하면 됩니다.
robots.txt란
검색엔진 크롤러에게 "이 부분은 봐도 되고, 이 부분은 보지 말아 달라"고 알려주는 규칙 파일입니다. 사이트 루트(내도메인/robots.txt)에 위치합니다.
예를 들어 관리자 페이지, 검색 결과 페이지처럼 굳이 검색엔진에 노출될 필요가 없는 영역을 차단하는 데 사용합니다.
User-agent: *
Disallow: /admin/
Sitemap: https://내도메인/sitemap.xml
흔히 하는 실수
1. 실수로 전체 사이트를 차단하는 것
Disallow: /처럼 설정하면 사이트 전체가 검색에서 제외됩니다. 개발 중에 걸어둔 설정을 실제 서비스 배포 후에 풀지 않아 발생하는 경우가 많으니 꼭 확인하세요.
2. 사이트맵을 갱신하지 않는 것 새 글을 계속 쓰는데 사이트맵이 예전 상태로 고정되어 있으면, 새 글이 색인되는 속도가 느려질 수 있습니다. 대부분의 플랫폼은 자동 갱신되지만, 직접 관리하는 사이트라면 주기적으로 확인이 필요합니다.
3. robots.txt로 색인을 막으려는 것 robots.txt는 "크롤링(방문)"을 막는 것이지 "색인(검색결과 등록)"을 완전히 막는 것이 아닙니다. 이미 색인된 페이지를 확실히 제거하려면 별도의 색인 삭제 요청이나 noindex 태그가 필요합니다.
사이트맵과 robots.txt는 한 번 제대로 설정해두면 크게 신경 쓸 일이 없는 영역입니다. 다만 처음 설정을 놓치면 아무리 좋은 글을 써도 검색엔진이 늦게 발견하거나 아예 놓칠 수 있으니, 블로그를 시작하는 단계에서 꼭 점검하고 넘어가세요.