엔비디아 Nemotron-Personas-Korea란? | 700만 한국인 AI 데이터셋 완전 해설

OVERVIEW

Nemotron-Personas-Korea란?

NVIDIA가 2026년 4월 공개한 세계 최초 대규모 한국어 합성 페르소나 데이터셋입니다. 실제 한국 인구 통계를 반영해 AI가 생성한 700만 명의 가상 한국인으로 구성되어 있습니다. 공개 직후 HuggingFace 데이터셋 카테고리 1위를 기록했습니다.

개인식별정보(PII)가 전혀 없는 완전한 합성 데이터로, 한국 개인정보보호법(PIPA)을 완벽히 준수합니다. AI 에이전트 훈련, 언어모델 학습, 소버린 AI 개발에 자유롭게 활용할 수 있습니다.

공개일

2026년 4월 20일

라이선스

CC BY 4.0 (상업적 무료)

언어

한국어

기반 LLM

Google Gemma-4 31B

총 토큰

17억 토큰 (페르소나 10억)

파일 포맷

Parquet (최적화)

페르소나 서비스

이 서비스가 이 데이터로 만든 것

persona.aikorea24.kr은 Nemotron-Personas-Korea 데이터셋을 기반으로 실제 한국 인구통계와 결합해 만든 페르소나 분석 서비스입니다. 나이·성별·지역을 입력하면 같은 조건의 실제 통계 분포를 보여줍니다.

📊

700만 페르소나 → 인구통계 매핑

엔비디아 데이터셋의 직업·가구·교육 분포를 통계청 인구총조사와 교차 검증하여 지역-성별-연령별 통계를 추출했습니다.
💰

소득 추정 보정

성별·연령별 취업자 중위 월소득(medianBase) × 지역보정계수(regionFactor)로 실제에 가까운 소득 추정값을 제공합니다.
🤖

AI 페르소나 서사 생성

각 조합(지역-성별-나이)에 대해 데이터셋의 페르소나 텍스트를 활용한 현실적인 인물 서사 20개를 제공합니다.
🗺️

2,891개 조합 생성

16개 지역 × 2개 성별 × 90개 연령 조합으로 총 2,891개 페르소나 페이지를 자동 생성했습니다.

DATA SCHEMA

26개 필드 구조

각 레코드는 인구통계 정보 + 7종 페르소나 서사 + 속성 필드로 구성됩니다. 총 100만 개 레코드에 7개 페르소나 유형을 곱해 700만 개가 됩니다.

🧬 7가지 페르소나 유형

professional_persona직업·커리어 관련 페르소나

sports_persona스포츠·운동 관련 페르소나

arts_persona예술·문화 관련 페르소나

travel_persona여행·탐험 관련 페르소나

culinary_persona음식·요리 관련 페르소나

family_persona가족·관계 관련 페르소나

persona종합 요약 페르소나

🎯 페르소나 속성 필드

cultural_background문화적 배경

skills_and_expertise기술 및 전문성

skills_and_expertise_list기술 목록 (구조화)

hobbies_and_interests취미 및 관심사

hobbies_and_interests_list취미 목록 (구조화)

career_goals_and_ambitions경력 목표 및 포부

📍 인구통계·지리 컨텍스트

uuid고유 식별자

sex성별 (남자/여자)

age나이 (19~99세)

marital_status혼인상태 (4종)

military_status군복무 상태

family_type가구 유형 (39종)

housing_type주택 유형 (6종)

education_level교육 수준 (7종)

bachelors_field학사 전공 (11종)

occupation직업 (2,000+ 종)

district시군구 (252개)

province시도 (17개)

HOW IT WAS BUILT

어떻게 만들었나?

NVIDIA의 오픈소스 합성 데이터 생성 시스템 NeMo Data Designer를 사용했습니다. 통계 모델로 인구분포를 그대로 재현하고, 대형 언어 모델로 자연스러운 한국어 서사를 생성했습니다.

공공 통계 수집

KOSIS, 대법원, 건강보험공단, 농촌경제연구원 등 5개 공식 데이터 소스에서 한국 인구 분포 데이터 수집

PGM 모델링

확률적 그래프 모델(PGM)로 연령·성별·지역·직업 등 변수 간 상관관계를 통계적으로 모델링

100만 프로필 생성

PGM 샘플링으로 실제 인구분포를 반영한 100만 개의 인구통계 프로필 생성

LLM 서사 생성

Gemma-4-31B가 각 프로필에 대해 7가지 유형의 자연스러운 한국어 페르소나 서사 생성

700만 페르소나

100만 × 7종 = 700만 개의 페르소나. PII 없음 확인 후 CC BY 4.0으로 공개

⚠️ 주의사항: 직업 배정 시 성별·소득·학력 간 독립성 가정이 적용됩니다. 변수 간 교호작용(예: 성별×전공 결합 효과)은 현재 버전에서 미반영이며, 젠더(Gender) 통계는 국내 공공데이터 부재로 포함되지 않았습니다.

DATA SOURCES

5개 공식 통계 출처

민간 데이터 없이 100% 공공 통계만을 기반으로 생성되었습니다.

🏛️

KOSIS (한국통계정보서비스)

2020~2026 인구조사. 성별·지역·산업·직업 분포. 통계청 운영.

⚖️

대법원

출생연도·성별별 이름 분포. 118개 성씨, 21,400개 고유 이름 추출.

🏥

국민건강보험공단

건강검진정보 (2024.12.31 기준). 공공누리 제0유형 제공.

🌾

농촌경제연구원

2024 식품소비행태조사. 지역별 생활 패턴 반영.

🌐

NAVER Cloud

설계 단계 초기 데이터 및 한국어 도메인 전문성 검증.

DEMOGRAPHICS

실제 한국 인구분포를 얼마나 반영했나?

데이터셋은 한국의 저출산·고령화 구조를 그대로 반영합니다.

📊 연령대별 비중 (주요 구간)

50~64세
~9%
40~49세
~8%
30~39세
~7%
20~29세
~6%
65세이상
~18%

📊 성씨 분포 (상위 5위)

김
21.5%
이
14.7%
박
8.5%
정
4.8%
최
4.7%

상위 5개 성씨가 전체의 54% 차지 (실제 한국과 동일)

USE CASES

무엇에 쓸 수 있나?

🤖

한국형 AI 에이전트 훈련

페르소나를 시스템 프롬프트에 삽입해 지역·직업·연령에 맞는 자연스러운 한국어 응답을 생성하는 AI 에이전트 구축

🏛️

소버린 AI 개발

국내 개인정보보호법(PIPA) 완벽 준수. 한국 공공기관·기업이 자체 AI 모델을 학습시키는 데 최적화

📚

LLM 훈련 데이터

17억 토큰의 다양한 한국어 텍스트로 언어모델의 한국어 이해 능력 향상. 편향 완화에도 활용 가능

🏥

공공서비스 시뮬레이션

보건·복지·교육·금융 등 공공 AI 서비스의 실제 사용자 시뮬레이션. 사용자 테스트 비용 절감

🔬

사회과학 연구

한국 사회의 인구통계 변화, 직업 구조, 가구 형태 등 사회현상 연구 및 시뮬레이션에 활용

🎮

NPC·캐릭터 생성

게임·가상현실·메타버스의 한국인 NPC 배경 설정 자동화. 직업·가족·취미가 모두 현실적으로 설정됨

CODE

직접 써보기 — 5분 시작 가이드

HuggingFace Datasets 라이브러리로 바로 로드할 수 있습니다.

▶ Python — 데이터셋 로드

from datasets import load_dataset

# 데이터셋 로드 (자동 캐시)
dataset = load_dataset("nvidia/Nemotron-Personas-Korea")

# 기본 정보 확인
print(dataset["train"].column_names)   # 26개 필드 출력
print(dataset["train"][0])            # 첫 번째 레코드 출력

▶ Python — 서울 30대 직업인 필터링 예시

# 서울 30대 취업자만 필터링
seoul_30s = dataset["train"].filter(
    lambda x: x["province"] == "서울특별시"
           and 30 <= x["age"] <= 39
           and x["occupation"] != "무직"
)

persona = seoul_30s[0]
print(f"이름: {persona['name']}")
print(f"직업: {persona['occupation']}")
print(f"페르소나: {persona['professional_persona']}")

▶ Python — AI 에이전트 시스템 프롬프트 삽입 예시

from openai import OpenAI

client = OpenAI(
    base_url="https://integrate.api.nvidia.com/v1",
    api_key="nvapi-YOUR_API_KEY"
)

system_prompt = f"""당신은 한국의 금융 상담 AI입니다.

[사용자 페르소나]
이름: {persona['name']}  |  나이: {persona['age']}세
직업: {persona['occupation']}  |  거주지: {persona['province']} {persona['district']}
학력: {persona['education_level']}

[페르소나 요약]
{persona['persona']}

[지침] 위 사용자 맥락을 이해하고 한국어 존댓말로 상담하세요."""

response = client.chat.completions.create(
    model="nvidia/nemotron-nano-8b-v1",
    messages=[
        {"role": "system", "content": system_prompt},
        {"role": "user", "content": "청년도약계좌 가입 조건이 어떻게 되나요?"}
    ]
)
print(response.choices[0].message.content)

LICENSE

라이선스 및 이용 조건

⚖️

CC BY 4.0 — 크리에이티브 커먼즈 저작자표시 4.0

NVIDIA 저작자 표시만 하면 상업적·비상업적 사용, 수정, 배포 모두 자유롭게 가능합니다. 개인식별정보(PII) 없이 한국 개인정보보호법(PIPA)을 완벽 준수합니다.

✅ 상업적 사용 ✅ 수정 가능 ✅ 재배포 가능 📌 저작자 표시 필수

인용 방법 (학술 논문): nvidia/Nemotron-Personas-Korea, NVIDIA Corporation, 2026, CC BY 4.0, https://huggingface.co/datasets/nvidia/Nemotron-Personas-Korea

지금 바로 다운로드

HuggingFace에서 무료로 다운로드하거나 NVIDIA 공식 블로그에서 더 자세히 알아보세요.

🤗 HuggingFace 데이터셋 열기 📖 NVIDIA 활용 가이드 🇰🇷 NVIDIA 한국 공식 블로그

엔비디아가 만든 700만 가상 한국인 데이터셋