ChatGPT가 어떤 기업을 인용하는지 결정하는 구조

AI의 답변에는 출처가 있다

ChatGPT에게 “GS칼텍스의 수소 사업 전략”을 물으면, AI는 관련 소스를 검색하고, 콘텐츠를 판독하고, 답변을 재구성한다. 이 답변에는 출처가 달린다. 어떤 기업의 사이트가 인용되고, 어떤 기업은 언급조차 되지 않는다. 이 선택은 무작위가 아니다. 구조가 있다.

Perplexity는 여러 소스를 방문한 후 소수만 선별하여 인용한다. Google AI Overview는 평균 응답당 소수의 소스를 인용하며, 그 중 상당수는 기존 상위 오가닉 결과에서 가져온다(Surfer, 2025). 나머지는 구조화, 엔티티 명확성, 최신성에서 우위를 가진 소스다.

이 글은 AI 엔진이 기업 콘텐츠를 인용할 때 작동하는 소스 선택 메커니즘을 분석한다.

4가지 선택 기준

Perplexity의 공식 소스 선택 원칙을 기준으로, AI 엔진의 소스 선택을 4가지로 정리할 수 있다.

1. 신뢰성(Trust)

AI는 신뢰할 수 있는 소스를 우선한다. 신뢰성의 판단 기준은 다음과 같다.

도메인 권위. Ahrefs Domain Rating, Moz Domain Authority로 측정되는 도메인의 전반적 신뢰도. 언론사, 정부 기관, 학술 사이트에서 해당 도메인을 얼마나 참조하는가.

E-E-A-T. Google이 정의한 Experience(경험), Expertise(전문성), Authoritativeness(권위성), Trustworthiness(신뢰도). SEMrush의 연구에 따르면, E-E-A-T 신호가 강한 페이지는 상위 3위 랭킹 확률이 30% 더 높다.

소스 다양성. 위키피디아, 나무위키, 언론 보도, 금감원 공시 등 여러 독립적 소스에서 동일 정보가 확인될 때 AI가 더 확신을 갖고 인용한다.

기업 입장에서 신뢰성은 단기간에 만들기 어렵다. 수십 년간 축적된 브랜드 자산이 기반이다. 다만, 구글 비즈니스 프로필 최적화, 위키피디아 정보 정확성 관리, 자사 도메인에 콘텐츠 집중 등으로 기존 자산을 디지털에서 제대로 발현시킬 수 있다.

2. 구조(Structure)

AI가 콘텐츠를 “읽을 수 있는가”가 두 번째 기준이다. 인간에게는 아름다운 페이지가 기계에게는 빈 페이지일 수 있다.

구조화 데이터. Schema.org 마크업이 적용된 콘텐츠는 AI가 유형과 맥락을 정확히 파악한다. 업계 분석에 따르면 FAQPage 스키마가 적용된 페이지는 AI 인용률이 유의미하게 높다.

시맨틱 HTML. H1~H3 헤딩의 논리적 구조, 의미 있는 앵커 텍스트, 목록(ul/ol)의 적절한 사용. AI는 이런 HTML 시맨틱을 단서로 콘텐츠의 구조를 파악한다.

Answer-first 배치. 핵심 답변이 각 섹션의 첫 문장에 있어야 한다. AI는 40~70단어 분량의 간결한 스니펫을 선호하는 패턴이 관찰된다. H3에 질문, 첫 문장에 답변이 있는 구조가 가장 높은 발췌율을 보인다.

3. 최신성(Freshness)

같은 주제의 여러 소스 중 더 최근 콘텐츠가 우선한다.

발행일과 수정일. 콘텐츠에 명확한 날짜 정보가 있어야 한다. Schema 마크업의 datePublished, dateModified가 정확해야 한다.

업데이트 빈도. 주기적으로 업데이트되는 사이트는 “살아있는 소스”로 인식된다. 2023년 이후 업데이트가 없는 사이트의 콘텐츠는 AI가 덜 신뢰한다.

시점 명시. 본문에 “2026년 3월 기준”처럼 시점을 명시하면, AI가 정보의 유효 기간을 판단할 수 있다.

4. 명확성(Clarity)

모호한 콘텐츠는 AI 답변 재료로 쓰기 어렵다.

구체적 수치. “대규모 투자”가 아니라 “1조 2천억 원 투자.” “다양한 사업”이 아니라 “정유, 윤활유, 석유화학, 수소 4개 사업부문.” 형용사를 수치로 대체한다.

엔티티 명확성. 기업명, 제품명, 인물명 등 고유명사가 정확하게 표기되어야 한다. AI가 엔티티를 식별하지 못하면 인용하지 않는다.

독립 완결형 문장. 각 문단의 첫 문장이 그 자체로 완결된 정보를 담아야 한다. 맥락 없이 발췌해도 의미가 통하는 문장이 AI 답변에 삽입된다.

두 가지 시나리오

이 4가지 기준이 실제로 어떻게 작동하는지, 두 가지 시나리오로 비교한다.

시나리오 A: 브랜드는 강하지만 구조가 없는 경우

대기업이다. 도메인 권위가 높고, 언론 보도가 풍부하다. 그러나 홈페이지에 Schema 마크업이 없고, 보도자료가 PDF로만 게시되어 있고, 마지막 업데이트가 2022년이다.

결과: AI 답변에 기업명은 등장한다. 그러나 인용 출처는 자사 사이트가 아니라 언론사 기사다. “~에 따르면”으로 인용되는 소스가 제3자다. 브랜드는 언급되지만, 정보의 주도권은 기업에게 없다.

시나리오 B: 브랜드는 약하지만 구조가 완벽한 경우

스타트업이다. 도메인 권위가 낮고, 브랜드 인지도가 제한적이다. 그러나 특정 분야에 대해 매우 깊이 있는 콘텐츠를 보유하고 있다. Schema 마크업이 완벽하고, Answer-first 구조로 작성되어 있고, 월 2회 업데이트된다.

결과: 해당 분야의 구체적인 질문에서 AI에 인용된다. 범용적 질문에서는 브랜드 인지도가 높은 기업에 밀리지만, 니치 질문에서는 직접 인용되는 빈도가 높다.

이 두 시나리오가 보여주는 교훈은 명확하다. 브랜드 자산과 콘텐츠 구조 모두 필요하지만, 구조가 없으면 자산이 작동하지 않는다.

기업이 점검해야 할 4가지

AI 인용을 위한 점검 항목을 4가지 기준에 맞춰 정리한다.

신뢰성 점검:

구글 비즈니스 프로필이 정확하고 최신 상태인가
핵심 콘텐츠가 자사 도메인에 집중되어 있는가 (외부 플랫폼 분산 아닌지)
위키피디아, 나무위키의 기업 정보가 정확한가

구조 점검:

Schema.org 구조화 데이터가 적용되어 있는가
H1~H3 헤딩이 논리적으로 구성되어 있는가
핵심 답변이 각 섹션의 첫 문장에 있는가
FAQ 콘텐츠가 구조화된 형태로 존재하는가

최신성 점검:

주요 허브 페이지가 최근 6개월 내 업데이트되었는가
콘텐츠에 발행일과 수정일이 명시되어 있는가
본문에 시점 정보(“2026년 기준”)가 포함되어 있는가

명확성 점검:

모호한 형용사가 구체적 수치로 대체되어 있는가
기업명, 제품명 등 고유명사가 정확하게 표기되어 있는가
각 문단의 첫 문장이 독립적으로 의미를 전달하는가

이 점검을 통과한 콘텐츠는 AI가 “가져다 쓸 수 있는” 상태가 된다. 통과하지 못한 콘텐츠는 아무리 좋은 내용이어도 AI의 답변 안에 들어가지 못한다. 콘텐츠의 품질과 콘텐츠의 구조는 별개의 문제이고, AI 시대에는 둘 다 필요하다.