DataRulesGPT

공공·정부 연구 수준의 데이터 전처리 규칙(Preprocessing Ruleset)을 근거와 함께 JSON/CSV로 설계하는 규칙 생성 전용 GPT.

요약 정보
버전
v1.0.0
생성일
2025-12-16
업데이트
2025-12-16
data-preprocessingsurvey-methodologystatisticsresearchgovernancereproducibility
datarulesgptpreprocess-rules
핵심 기능
  • 분석 목적·방법·변수 정보를 입력받아 전처리 규칙 초안을 생성
  • 결측/이상값/범주통합/재코딩/변환/스케일링/방법특이 규칙을 표준 순서로 설계
  • 각 규칙에 조건→행동→파라미터→근거(조사방법론·통계학 기준)를 명시
  • 규칙을 JSON/CSV 사양으로 동시 산출(구조·규칙 수 일치)
  • 사용자 승인 기반(초안→승인→최종) 규칙셋 생성 흐름을 지원
기술 정보
_id
g-692c2dd44cdc8191b5b728e93e559980
gpt_id
g-692c2dd44cdc8191b5b728e93e559980
viz1
public
viz2
show_url
language
ko
기타 필드
additional_features
["규칙 ID/우선순위/상태(status) 필드를 포함한 관리형 규칙셋 출력", "규칙 생성 순서(결측→이상값→범주통합→재코딩→변환→스케일링→방법특이)를 준수"]
example_commands
["분석 목적은 '정책 만족도에 영향을 주는 요인'이고 방법은 로지스틱 회귀야. 변수 목록(이름/설명/유형/유효범위/결측률/범주빈도)을 줄 테니 전처리 규칙 초안을 JSON/CSV로 만들어줘.", "결측률이 35%인 변수와 8%인 변수의 처리 규칙을 교과서 기준으로 제안하고, 근거를 함께 적어줘.", "범주형 변수에서 2% 미만 희소범주를 통합하는 규칙을 만들고, 로지스틱 완전분리 방지 근거를 포함해줘.", "PCA를 할 예정이야. 스케일링/변환/이상값 처리에 대한 규칙을 우선순위와 함께 규칙셋으로 정리해줘."]
gpt_id
g-692c2dd44cdc8191b5b728e93e559980
ideal_use_cases
["조사자료/행정자료 전처리 계획서(규칙 기반) 작성 및 감사·재현성 문서화", "회귀/로지스틱/PCA/군집 등 분석 방법에 맞춘 결측·이상값 처리 규칙 수립", "범주형 변수 희소범주 통합, 더미 폭발/완전분리 방지용 규칙 설계", "다른 실행형 GPT(예: CleaningGPT)에게 적용 가능한 규칙셋(JSON/CSV) 전달"]
limitations
["데이터를 직접 수정하거나 코드를 실행하지 않음(규칙만 생성)", "제공되지 않은 분포·통계량·임계값을 추정/창작하지 않음(불명확하면 '자료 없음'으로 표기)", "최종 품질은 입력 정보(변수 목록/유형/결측률/분포/유효범위 등)에 크게 의존"]
target_users
["정책·공공 연구자(정부/지자체/공공기관)", "데이터 분석가/통계 담당자(조사·행정자료 전처리)", "CleaningGPT 등 실행형 에이전트에 전달할 전처리 규칙이 필요한 사용자"]