실제 통계청·대법원·건강보험공단 데이터를 기반으로
AI가 생성한 세계 최초 대규모 한국어 페르소나 데이터셋
NVIDIA가 2026년 4월 공개한 세계 최초 대규모 한국어 합성 페르소나 데이터셋입니다. 실제 한국 인구 통계를 반영해 AI가 생성한 700만 명의 가상 한국인으로 구성되어 있습니다. 공개 직후 HuggingFace 데이터셋 카테고리 1위를 기록했습니다.
개인식별정보(PII)가 전혀 없는 완전한 합성 데이터로, 한국 개인정보보호법(PIPA)을 완벽히 준수합니다. AI 에이전트 훈련, 언어모델 학습, 소버린 AI 개발에 자유롭게 활용할 수 있습니다.
persona.aikorea24.kr은 Nemotron-Personas-Korea 데이터셋을 기반으로 실제 한국 인구통계와 결합해 만든 페르소나 분석 서비스입니다. 나이·성별·지역을 입력하면 같은 조건의 실제 통계 분포를 보여줍니다.
각 레코드는 인구통계 정보 + 7종 페르소나 서사 + 속성 필드로 구성됩니다. 총 100만 개 레코드에 7개 페르소나 유형을 곱해 700만 개가 됩니다.
professional_persona직업·커리어 관련 페르소나sports_persona스포츠·운동 관련 페르소나arts_persona예술·문화 관련 페르소나travel_persona여행·탐험 관련 페르소나culinary_persona음식·요리 관련 페르소나family_persona가족·관계 관련 페르소나persona종합 요약 페르소나cultural_background문화적 배경skills_and_expertise기술 및 전문성skills_and_expertise_list기술 목록 (구조화)hobbies_and_interests취미 및 관심사hobbies_and_interests_list취미 목록 (구조화)career_goals_and_ambitions경력 목표 및 포부uuid고유 식별자sex성별 (남자/여자)age나이 (19~99세)marital_status혼인상태 (4종)military_status군복무 상태family_type가구 유형 (39종)housing_type주택 유형 (6종)education_level교육 수준 (7종)bachelors_field학사 전공 (11종)occupation직업 (2,000+ 종)district시군구 (252개)province시도 (17개)NVIDIA의 오픈소스 합성 데이터 생성 시스템 NeMo Data Designer를 사용했습니다. 통계 모델로 인구분포를 그대로 재현하고, 대형 언어 모델로 자연스러운 한국어 서사를 생성했습니다.
⚠️ 주의사항: 직업 배정 시 성별·소득·학력 간 독립성 가정이 적용됩니다. 변수 간 교호작용(예: 성별×전공 결합 효과)은 현재 버전에서 미반영이며, 젠더(Gender) 통계는 국내 공공데이터 부재로 포함되지 않았습니다.
민간 데이터 없이 100% 공공 통계만을 기반으로 생성되었습니다.
데이터셋은 한국의 저출산·고령화 구조를 그대로 반영합니다.
상위 5개 성씨가 전체의 54% 차지 (실제 한국과 동일)
HuggingFace Datasets 라이브러리로 바로 로드할 수 있습니다.
from datasets import load_dataset
# 데이터셋 로드 (자동 캐시)
dataset = load_dataset("nvidia/Nemotron-Personas-Korea")
# 기본 정보 확인
print(dataset["train"].column_names) # 26개 필드 출력
print(dataset["train"][0]) # 첫 번째 레코드 출력# 서울 30대 취업자만 필터링
seoul_30s = dataset["train"].filter(
lambda x: x["province"] == "서울특별시"
and 30 <= x["age"] <= 39
and x["occupation"] != "무직"
)
persona = seoul_30s[0]
print(f"이름: {persona['name']}")
print(f"직업: {persona['occupation']}")
print(f"페르소나: {persona['professional_persona']}")from openai import OpenAI
client = OpenAI(
base_url="https://integrate.api.nvidia.com/v1",
api_key="nvapi-YOUR_API_KEY"
)
system_prompt = f"""당신은 한국의 금융 상담 AI입니다.
[사용자 페르소나]
이름: {persona['name']} | 나이: {persona['age']}세
직업: {persona['occupation']} | 거주지: {persona['province']} {persona['district']}
학력: {persona['education_level']}
[페르소나 요약]
{persona['persona']}
[지침] 위 사용자 맥락을 이해하고 한국어 존댓말로 상담하세요."""
response = client.chat.completions.create(
model="nvidia/nemotron-nano-8b-v1",
messages=[
{"role": "system", "content": system_prompt},
{"role": "user", "content": "청년도약계좌 가입 조건이 어떻게 되나요?"}
]
)
print(response.choices[0].message.content)NVIDIA 저작자 표시만 하면 상업적·비상업적 사용, 수정, 배포 모두 자유롭게 가능합니다. 개인식별정보(PII) 없이 한국 개인정보보호법(PIPA)을 완벽 준수합니다.
인용 방법 (학술 논문): nvidia/Nemotron-Personas-Korea, NVIDIA Corporation, 2026, CC BY 4.0, https://huggingface.co/datasets/nvidia/Nemotron-Personas-Korea
HuggingFace에서 무료로 다운로드하거나 NVIDIA 공식 블로그에서 더 자세히 알아보세요.