상세 컨텐츠

본문 제목

구글 서치 콘솔 색인 생성 범위 제외된 페이지 분석하기 [블로그]

디지털 노마드 생활정보

by 써니동D 2022. 2. 27. 23:33

본문

구글 서치 콘솔에서 색인을 생성하는 기간이 걸리는 편인 거 같습니다.

블로그를 개설한지 한 달이 다 되어가고,

포스팅 개수에 비해 색인 생성이 늘지가 않습니다.😂

우선 꾸준히 포스팅을 하면서 상황을 지켜봐야겠습니다.

 

구글서치콘솔 제외됨 페이지 분석

<목차>
1. 구글서치콘솔 '제외됨' 페이지 분석 
2. 색인 생성 범위 보고서 참고 사항 
3. 상태 이유
🔸robots.txt에 의해 차단됨 
🔸적절한 표준태그가 포함된 대체 페이지
🔸중복페이지, 제출된 URL이 표준으로 선택되지 않음
🔸리디렉션이 포함된 페이지
🔸크롤링됨-현재 색인이 생성되지 않음
🔸발견됨-현재 색인이 생성되지 않음
🔸찾을 수 없음(404)
🔸사용자가 선택한 표준이 없는 중복 페이지

 

목차 링크가 걸려 있지 않습니다.

'Ctrl+F'로 찾아보면 편리합니다.

 

블로그 포스팅 개수가 많아지면,

URL 검사도 일일이 하기 힘들어지니깐 엑셀을 활용해서 일주일에 한 번 정도 정리하고 있습니다.

  • 색인이 생성되었는 지
  • 포털 사이트에 제목을 검색했을 때 내 글이 나오는지

서치콘솔 제외됨 페이지 원인

오늘은 구글 서치 콘솔의 '제외된 페이지'에 분석해 보려고 합니다.

페이지가 제외되었다고 해서 검색이 안되거나,

검색순위 관련해서 꼭 문제가 되는 것은 아니라고 구글고객센터에서 말합니다.

 

그래도 다음에 또 이런 일이 발생될 때 어떻게 대처할 수 있는지 알아두는 건 블로그를 운영하는 것에 있어 도움이 될 것 같습니다.🤓

구글 서치 콘솔 '제외된 페이지' 분석

현재 사용하지 않는 블로그의 상황을 가져왔습니다.

제외된 페이지가 참 많습니다.

보편적으로 제외된 페이지의 URL를 보면 '/m'이 들어가 있습니다. 제가 생각하기에는 이유는 이렇습니다.

 

모바일 웹 자동 설정을 사용하지 않았는 데, 중간에 "모바일 사용 편의선 문제가 발견됨"이라고 구글 서치 콘솔의 메일을 받고, '티스토리 관리자➡️꾸미기➡️모바일 웹 설정'을 했습니다.

모바일 웹 설정을 하면 'URL'에 '/m'이 붙습니다. 같은 내용으로 '다른 URL' 읽히다 보니 구글 봇이 제외시키지 않았나 싶습니다.

티스토리 모바일 웹설정

참고로 모바일 사용 편의성 문제는 문제 있는 부분만 변경하고 문제 해결하기 하면 되는 데, 어떻게 변경해야 할지 알 수 없어서 티스토리의 모바일 웹으로 변경하고, 해당 문제는 해결되었습니다. 확실히 모바일 웹으로 사용하는 게 로딩 속도가 빨랐습니다. 

 

구글 서치 콘솔 색인 생성범위 보고서를 참고해서 '제외됨' 상태에 따른 이유를 알아보겠습니다.

 

구글 서치 콘솔 색인 생성 범위 보고서 참고사항

🚨해당 글은 구글 서치콘솔 고객센터의 '색인 생성 범위 보고서'에서 본인이 필요로 하는 사항만 작성되었습니다. 전체 내용을 보고 싶다면, 아래 링크를 참고하면 됩니다.🌎구글 서치 콘솔 "색인 생성 범위 보고서"

[확인할 사항]
사이트 규모가 커지면 색인이 생성된 유효한 페이지 수가 점진적으로 늘어나야 합니다. 급락이나 급증이 발생한다면 문제 해결 섹션을 참고하세요. 요약 페이지의 상태 표는 '상태 + 이유'로 그룹화 및 정렬되어 있습니다.

목표는 모든 중요 페이지의 🔔표준 버전 색인을 생성하는 것입니다. 이 보고서에서는 중복 또는 대체 페이지가 '제외됨'으로 분류됩니다. 중복 또는 대체 페이지는 표준 페이지와 콘텐츠가 상당 부분 동일합니다. 중복 또는 대체로 표시된 페이지가 생기면 Google에서 표준 페이지를 발견하고 색인을 생성했다는 의미이므로 일반적으로 좋은 결과입니다. URL 검사 도구를 실행하면 어떤 URL이든 표준 페이지를 찾을 수 있습니다.

[확인하지 않을 사항]
🔹100% 색인 생성: 사이트의 모든 URL의 색인이 생성될 것이라고 기대해서는 안 됩니다. 위에서 설명된 것과 같이 표준 페이지의 색인만 생성됩니다.
🔹즉시 색인 생성: 새 콘텐츠를 추가하면 Google에서 색인을 생성할 때까지 며칠이 걸릴 수 있습니다. 색인 생성을 요청하여 색인 생성 지연을 줄일 수 있습니다.

[상태]
각 페이지는 다음 상태일 수 있습니다.
🔹오류: 페이지의 색인이 생성되지 않았습니다. 구체적인 오류 유형 설명을 참고하여 자세한 내용을 알아보고 오류 수정 방법을 확인하세요. 이러한 문제를 먼저 집중해서 처리해야 합니다.
🔹경고: 페이지의 색인은 생성되었지만 주의해야 할 문제가 있습니다.
🔹제외됨: 페이지의 색인이 생성되지 않았으며 이는 게시자가 의도한 결과로 보입니다. 예를 들어 NOINDEX 명령어를 사용해 의도적으로 제외했거나 이미 사이트에서 색인 생성된 표준 페이지의 중복 페이지일 수 있습니다.
🔹유효: 페이지의 색인이 생성되었습니다.
*출처: 구글 서치 콘솔 고객센터

여기서 주의해야 할 상태는 '오류'와 '경고'입니다. 지금 자꾸 카테고리 페이지 부분이 '404(페이지를 찾을 수 없음)'으로 구글 로봇이 인식해서 난감한 상태인데, 그냥 해결하지 않기로 했습니다.🥲

구글서치콘솔 오휴 해결

보통 색인 생성 요청을 시간이 지난 후 해결됩니다. 전에 리디렉션 오류가 일어난 페이지가 있었는 데, 색인 생성 요청을 하니 보름 정도 있다가 해결되었습니다.

'404문제'도 함께 색인 생성 요청을 했는 데, 실패했습니다.

 

robots.txt에 의해 차단됨

구글 로봇에 의해 차단된 'URL'은 보통 모바일 웹 블로그 내에서 블로그 검색을 한 'URL'들 뿐이었습니다. 구글 검색에 굳이 나올 필요가 없는 부분이라 그냥 놔두기로 했습니다.

[표시된 URL 예시]
000.tistory.com/m/search/tags?keyword=검색어

사람들의 검색하는 용어에 따라 계속 늘어나는 걸로 보입니다.

그저, 제 블로그에서 검색을 해서 포스팅 글을 찾아주는 것이 감사합니다.

나름 도움이 되어서 검색도 해주시는 거라 생각합니다.😊

robots.txt에 의해 차단됨:
이 페이지는 robots.txt 파일로 인해 Googlebot의 액세스가 차단되었습니다. 
robots.txt 테스터로 이를 확인할 수 있습니다. robots.txt로 차단해도 다른 방법으로 페이지 색인이 생성될 수 있습니다. Google에서 페이지를 로드하지 않고도 이 페이지에 관한 다른 정보를 찾을 수 있다면 페이지의 색인을 계속 생성할 수 있지만, 이 같은 경우는 드뭅니다. Google에서 페이지의 색인을 생성하지 않도록 하려면 robots.txt 차단을 삭제하고 'NOINDEX' 명령어를 사용하세요.
*출처: 구글 서치 콘솔 고객센터

 

적절한 표준 태그가 포함된 대체 페이지

이 부분은 제가 이해하기에,

표준 URL이 있어서 중복된 페이지로 제외된 걸로 보입니다.

구글 서치 콘솔 고객센터에서도 대체 페이지로, 표준 페이지가 따로 있기 때문에 별도로 조치할 필요 없다고 합니다.

URL 주소는 모바일 웹 카테고리를 통해 들어온 포스팅들만 있었습니다.

[표시된 URL 예시]
000.tistory.com/m/1?category=000000

적절한 표준 태그가 포함된 대체 페이지:
이 페이지는 Google에서 표준으로 인식하는 페이지의 중복 페이지입니다. 이 페이지는 표준 페이지로 올바르게 연결되므로 별도의 조치는 필요 없습니다.
*출처: 구글 서치 콘솔 고객센터

 

중복 페이지, 제출된 URL이 표준으로 선택되지 않음

이것도 위와 비슷한 이유로 제외된 페이지입니다.

여기 나온 URL은 모두 모바일 웹 사용으로 인한 URL 밖에 없습니다.🥲

크롤링 허용 여부, 색인 생성 허용 여부, 페이지 가져오기는 위와 마찬가지로 허용된 상태입니다.

표준 URL 맞고 중복된 것이기 때문에 아무런 조치를 취하지 않았습니다.

중복페이지로 제외된 URL
000.tistory.com/m/10
표준 URL
000.tistory.com/10
중복 페이지, 제출된 URL이 표준으로 선택되지 않음:
URL이 표준 페이지라고 명시적으로 지정되지 않은 중복 URL 집합 중 하나입니다. 이 URL의 색인을 생성하도록 명시적으로 요청했지만, 이 URL은 중복이고 Google에서 다른 URL이 더 나은 표준이라고 판단했으므로 이 URL의 색인을 생성하는 대신 Google에서 선택한 표준 URL의 색인을 생성했습니다. Google은 중복된 페이지 집합에서 표준 페이지의 색인만 생성합니다. 여기에서 이 상태와 'Google에서 사용자와 다른 표준을 선택함' 상태의 차이는 사용자가 색인 생성을 명시적으로 요청했다는 점입니다. 이 URL을 검사하면 Google에서 선택한 표준 URL이 표시됩니다.
*출처: 구글 서치 콘솔 고객센터

 

리디렉션이 포함된 페이지

해당 문구로 표시된 URL은

블로그 카테고리를 통해 들어온 URL입니다.

리디렉션 흠... 뭔 말인지, 사전 의미를 찾아봐도 이해가 가지 않지만,

우선 기록해 봅니다.😅

🎈리디렉션(redirection)이란?
컴퓨팅에서 표준 스트림을 사용자 지정 위치로 우회할 수 있는 다양한 유닉스 셸을 포함한 대부분의 명령어 인터프리터에 일반적인 명령이다. 방향 지정[1], 방향 변경[2]으로도 부른다.
*출처: 위키백과

[표시된 URL 예시]
000.tistory.com/5?category=000000

리디렉션이 포함된 페이지: URL이 리디렉션이므로 색인에 추가되지 않았습니다.
*출처: 구글 서치 콘솔 고객센터

 

크롤링됨_현재 색인이 생성되지 않음

여기에도 별의별 URL 주소가 나와 있습니다.

저는 여기 나온 URL 중에서 '000.tistory.com/00'로 제대로 된 게 2개 발견되어 2개만 색인 요청했습니다. (74,42)

크롤링을 위해 다시 URL를 제출할 필요는 없다고 합니다.

🎈크롤링(crawling)이란?
무수히 많은 컴퓨터에 분산 저장되어 있는 문서를 수집하여 검색 대상의 색인으로 포함시키는 기술. 어느 부류의 기술을 얼마나 빨리 검색 대상에 포함시키냐 하는 것이 우위를 결정하는 요소로서 최근 웹 검색의 중요성에 따라 발전되고 있다.
*출처: [네이버 지식백과] (IT용어사전, 한국정보통신기술협회)

크롤링됨 - 현재 색인이 생성되지 않음:
 Google에서 페이지를 크롤링했지만 색인이 생성되지는 않았습니다. 이후에 색인이 생성될 수도 있고 생성되지 않을 수도 있습니다. 크롤링을 위해 이 URL을 다시 제출할 필요는 없습니다.
*출처: 구글 서치 콘솔 고객센터

 

발견됨_현재 색인이 생성되지 않음

페이지는 발견되었지만, 크롤링이 되지 않았다고 합니다.

제대로 된 URL인데 '000.tistory.com/00'으로 색인 생성되지 않은 게 2개 있어서 색인 요청을 했습니다. (87,15)

오늘 색인 요청한 건은 한 3일 지나서 다시 확인해 볼 예정입니다.

발견됨 - 현재 색인이 생성되지 않음:
 Google에서 페이지를 발견했지만 페이지가 아직 크롤링되지 않았습니다. 일반적으로 Google에서 URL을 크롤링하려고 했지만 이로 인해 사이트가 과부하 상태가 될 수 있기 때문에 Google에서 크롤링 일정을 변경한 경우입니다. 그렇기 때문에 보고서에 마지막 크롤링 날짜가 비어 있는 것입니다.
*출처: 구글 서치 콘솔 고객센터

 

찾을 수 없음(404)

전에 카테고리 이름을 자주 바꿨는 데,

카테고리를 바꾸기 전에 본 URL이 찾을 수 없는 페이지가 되어서 생긴 문제로 보입니다.

예를 들어 카테고리 이름을 '영화 리뷰'에서 '영화 독후감'으로 바꿨을 때 URL이 아래와 같이 변경되면서 전에 있었던 URL은 찾을 수 없게 됩니다.

000.tistory.com/category/영화 리뷰➡️000.tistory.com/category/영화 독후감

저의 경우,

찾을 수 없음으로 표시된 URL은 일반적인 제외 페이지이기 때문에 따로 조치를 취하지 않았습니다.

만일 오류로 (404) 제외 페이지가 되었다면,

구글 서치 콘솔에 '404 오류'를 검색하여 해결방안을 참고하기 바랍니다.

찾을 수 없음(404):
 이 페이지를 요청했을 때 404 오류가 반환되었습니다. 명시적인 요청이나 사이트맵이 없는데 Google에서 URL을 발견했습니다. Google에서 다른 사이트의 링크로 URL을 발견했거나 이전에 존재했지만 삭제된 페이지일 수 있습니다. Googlebot은 일정 기간 동안 이 URL을 계속 시도할 수 있습니다. Googlebot이 URL을 완전히 무시하도록 지정할 방법은 없지만, 크롤링 빈도는 줄어듭니다. 404 응답은 의도적인 경우 문제가 되지 않습니다. 페이지를 이동했다면 새 위치로 301 리디렉션을 사용하세요. 또한 
404 오류 해결을 참조하시기 바랍니다.

일반적으로 404 제외 페이지가 아닌 404 오류 페이지만 수정하는 것이 좋습니다.

사용자가 선택한 표준이 없는 중복 페이지

구글 로봇이 선정한 표준 URL로 유효성 검사 후 색인 생성 요청을 해주었습니다.

사용자가 선택한 표준이 없는 중복 페이지:
이 페이지에 중복 페이지가 있지만 표준으로 표시된 페이지는 없습니다. 이러한 페이지는 표준 페이지로 판단되지 않습니다. 명시적으로 이 페이지를 표준으로 지정해야 합니다. 이 URL을 검사하면 Google에서 선택한 표준 URL이 표시됩니다.

 


제외된 페이지는 딱히 문제가 되는 것처럼 보이지 않습니다.

오류나 경고 같은 경우에는 꼭 수정을 해줘야 하는 데, 보통 유효성 검사하고 색인 생성해주면 됩니다.

구글 서치 콘솔을 이용하다 보면,

페이지 오류 메일이 생각보다 많이 옵니다.

 

그럴 때마다 기분이 좋지 않지만 배워간다 생각하고 열심히 검색해서 해결해 나가고 있습니다.

오늘, 구글 서치 콘솔 색인 생성 범위의 제외됨 페이지에 대해 알아보았는 데,

제외됨 페이지가 많아진다고 걱정할 필요는 없는 거 같습니다.😁

 

이것저것 제가 나중에 보기 위해 설명 글을 적다 보니 길어졌습니다.

페이지에 문제가 있다면, 꼭 해결되기 바랍니다.🙏


©sunnydong Blog_써니동 블로그의 모든 게시물 저작권은 본인에게 있으며 무단 전재, 복제 및 재배포를 절대 금지합니다. 이를 어길 경우 법적으로 처벌받을 수 있습니다.

관련글 더보기