데이터사이언스 핵심


데이터사이언스는 데이터로부터 의미 있는 정보를 추출해내는 융합 학문이다. 정형·비정형 데이터 모두를 대상으로 하며, 통계학, 수학, 컴퓨터공학, 시각화, 해커의 사고방식, 그리고 해당 분야의 전문지식까지 폭넓게 요구된다. 데이터사이언스는 단순한 분석을 넘어, 실제 사회와 비즈니스의 성과를 견인하고, 데이터 기반 의사결정과 혁신을 이끌어낸다.

1. 데이터사이언스란 무엇인가?

  • 인터넷, 센서, 모바일 등 다양한 경로에서 생성되는 방대한 데이터를 분석하여, 의미 있는 패턴과 인사이트를 도출하는 학문이다.
  • 정형 데이터(숫자, 표)뿐 아니라 비정형 데이터(텍스트, 이미지, 영상 등)까지 모두 다룬다.
  • 데이터의 수집, 정제, 분석, 시각화, 전달까지 전 과정을 포함한다.

2. 데이터사이언스의 역할과 필요 역량

  • 데이터사이언티스트는 비즈니스의 핵심 이슈에 답을 제시하고, 데이터 기반으로 성과를 이끌어낸다.
  • 분석적 사고력, IT 활용능력, 커뮤니케이션, 스토리텔링, 창의력, 비판적 사고 등 다양한 역량이 필요하다.
  • 데이터사이언스의 과정에는 분석, IT, 컨설팅 등 여러 영역이 융합된다.

3. 데이터사이언스의 주요 영역

영역 핵심 내용 주요 역할
분석적 영역 통계, 수학, 데이터 분석, 예측 패턴 발견, 인사이트 도출
IT 영역 프로그래밍, 데이터베이스, 빅데이터, 머신러닝 데이터 처리, 자동화, 시스템 구현
컨설팅 영역 문제 정의, 의사결정, 커뮤니케이션 현장 적용, 비즈니스 성과 창출

4. 데이터사이언스의 한계와 유의점

  • 분석 과정에는 인간의 해석과 가정이 개입되며, 동일한 결과도 해석에 따라 다른 결론이 나올 수 있다.
  • 정량적 분석이라도 모든 분석은 가정에 근거하며, 오차와 불확실성에 대한 이해와 통제가 필요하다.
  • 데이터 활용에는 개인정보, 윤리, 보안 등 사회적 책임도 수반된다.

5. 데이터사이언스의 핵심 프로세스

  1. 문제 정의 및 목표 설정
  2. 데이터 수집(내부/외부, 정형/비정형)
  3. 데이터 정제 및 전처리
  4. 데이터 분석 및 모델링(통계, 머신러닝 등)
  5. 결과 해석 및 시각화, 인사이트 도출
  6. 의사결정 및 현장 적용

6. 데이터사이언스 관련 핵심 용어

  • 정형/비정형 데이터: 표 형태/비표 형태(텍스트, 이미지 등)
  • EDA(Exploratory Data Analysis): 탐색적 데이터 분석
  • 머신러닝: 데이터에서 패턴을 학습해 예측·분류·군집화 등 수행
  • 클러스터링: 유사한 데이터끼리 그룹화하는 비지도 학습
  • 데이터마이닝: 대규모 데이터에서 패턴, 규칙, 인사이트를 발견하는 과정

정리

데이터사이언스는 데이터 기반의 문제 해결과 혁신을 이끄는 종합적 학문이다. 분석적 사고, IT 활용, 현장 적용까지 다양한 역량이 필요하며, 데이터의 수집부터 분석, 해석, 실행까지 전 과정을 아우른다. 데이터사이언스는 단순한 기술이 아니라, 데이터로 세상을 이해하고 변화시키는 새로운 패러다임임을 기억해야 한다.
728x90

'데이터사이언스' 카테고리의 다른 글

클러스터링  (0) 2025.06.02
데이터 전처리  (0) 2025.05.31
데이터 탐색  (0) 2025.05.29
데이터 관리  (1) 2025.05.28
데이터 수집  (0) 2025.05.26

데이터링크 프로토콜

 

데이터링크 프로토콜은 OSI 7계층 중 2계층(데이터링크 계층)에서 구현되는 규격들의 집합입니다.

주요 역할은 회선 제어(Line Control), 흐름 제어(Flow Control), 오류 제어(Error Control) 등 데이터 통신의 신뢰성과 효율성을 보장하는 것입니다.


프로토콜의 분류

  • 동기식 프로토콜
    • 문자 위주 방식 (Character-oriented)
    • 비트 위주 방식 (Bit-oriented)
  • 비동기식 프로토콜 (거의 사용되지 않음)

문자 위주 프로토콜 (Character-oriented Protocol)

  • 프레임을 바이트(8비트) 단위로 구성하며, ASCII 제어문자를 사용
  • 대표 프로토콜: BSC(Binary Synchronous Communication, 1964년 IBM 개발)
  • 비트 위주 프로토콜에 비해 비효율적이어서 현재는 거의 사용되지 않음
  • 문자 코드에 의존적이므로, 통신하는 장치 간 문자 코드 체계가 일치해야 함
  • 주로 동기식 전송을 사용하지만, 비동기식 전송도 지원
  • 점대점(Point-to-Point), 멀티포인트(Multi-point) 모두 지원
  • 흐름제어/오류제어: 정지-대기 ARQ(Stop-and-Wait ARQ) 사용, 반이중(Half Duplex)만 지원

BSC 프레임 구조

  • SYN: 동기 문자, 2개 이상의 SYN으로 시작(프레임 동기화)
  • SOH: 헤더의 시작
  • Header: 송수신 장치의 주소, 프레임 식별 번호 등 제어 정보
  • STX: 본문의 시작
  • Data: 실제 데이터 본문
  • ETX: 본문의 끝
  • BCC: 오류제어용, 1바이트 LRC 또는 2바이트 CRC

데이터 투명성(Data Transparency)과 DLE

  • 어떠한 비트 조합도 제어정보와 혼동되지 않고 데이터로 전송 가능해야 함
  • DLE(Data Link Escape) 문자를 사용하여 데이터 투명성 보장
  • 본문 내에 제어문자(STX, ETX 등)가 등장하면 앞에 DLE 문자 삽입
  • 두 DLE 문자 사이의 모든 문자는 데이터로 취급
  • 투명 영역 내에 제어문자와 동일한 비트 패턴이 있어도 제어문자로 취급하지 않음
  • 본문 내에 DLE와 동일한 비트 패턴이 있으면 DLE 문자를 하나 더 추가

BSC 주요 전송 제어문자

문자 의미 기능
SYN Synchronization 문자 동기
SOH Start of Header 헤더의 시작
STX Start of Text 본문의 시작 및 헤더의 종료
ETX End of Text 본문의 종료
ETB End of Transmission Block 블록의 종료
EOT End of Transmission 전송 종료 및 데이터 링크 해제
ENQ Enquiry 상대편에 데이터 링크 설정 및 응답 요구
DLE Data Link Escape 데이터 내의 제어문자를 데이터로 취급
ACK Acknowledgment 긍정 응답
NAK Negative Acknowledgment 부정 응답

비트 위주 프로토콜 (Bit-oriented Protocol)

  • 프레임을 비트의 연속(비트열)로 간주
  • 문자 코드에 의존하지 않으며, 데이터 투명성이 뛰어남
  • 멀티미디어 데이터(오디오, 비디오 등) 전송에 적합
  • 대표 프로토콜: SDLC, ADCCP, HDLC, LAPB, LAPD, LAPM, Frame Relay, PPP

비트 위주 프로토콜의 발전

  • 1975년: IBM이 SDLC(Synchronous Data Link Control) 개발
  • 1979년: ANSI에서 SDLC 기반으로 ADCCP 표준화
  • 1984년: ISO에서 ADCCP를 HDLC(High-level Data Link Control)로 국제 표준화
  • 1981년~: ITU-T에서 HDLC 기반 LAP 시리즈(LAPB, LAPD, LAPM) 개발
  • LAPB: X.25 패킷교환망과 ISDN의 B 채널용
  • LAPD: ISDN의 D 채널용
  • LAPM: 모뎀용
  • HDLC로부터 발전된 프로토콜: Frame Relay, PPP

정리

  • 데이터링크 프로토콜은 동기식(문자 위주/비트 위주)과 비동기식으로 구분
  • 문자 위주 방식(BSC)은 제어문자 기반, 비효율적이어서 현재 거의 사용되지 않음
  • 비트 위주 방식(HDLC 등)은 데이터 투명성, 효율성, 확장성에서 우수하여 현대 데이터 통신의 표준
  • BSC는 정지-대기 ARQ, 반이중만 지원, HDLC는 Go-Back-N ARQ, 전이중/반이중/단방향 모두 지원
  • 데이터 투명성: BSC는 DLE 문자, HDLC/PPP는 비트 스터핑(bit stuffing) 방식 사용
728x90

'데이터통신' 카테고리의 다른 글

WAN 기술  (1) 2025.06.05
LAN 기술  (1) 2025.06.04
데이터통신 핵심내용 - 1  (1) 2025.05.15
데이터링크 제어  (0) 2025.05.08
회선구성과 교환방식  (0) 2025.05.05

클러스터링


클러스터링은 데이터 내에서 유사한 속성을 가진 객체들을 그룹으로 묶는 비지도 학습 기법이다. 사전에 정답(label) 없이 데이터의 구조를 파악하거나, 데이터 분류의 기초 자료로 널리 활용된다.

1. 클러스터링의 개념과 목적

  • 클러스터링은 데이터의 숨겨진 구조나 패턴을 발견하고, 유사한 데이터끼리 그룹화하는 데 목적이 있다.
  • 고객 세분화, 이미지 분할, 이상치 탐지 등 다양한 분야에서 활용된다.

2. 대표적인 클러스터링 알고리즘

알고리즘 특징 활용 예시
K-means 중심 기반, 군집 수 지정 필요, 속도 빠름 고객 세분화, 이미지 분할
계층적 군집 트리 구조, 덴드로그램 시각화 생물 분류, 문서 분류
DBSCAN 밀도 기반, 이상치 탐지에 강함 이상치 탐지, 패턴 인식

3. 클러스터링의 평가와 활용

  • 실루엣 계수, SSE(오차제곱합), Dunn Index 등 군집의 응집도와 분리도를 기준으로 평가한다.
  • 클러스터링 결과는 데이터의 구조 이해, 분류, 이상치 탐지, 추천 시스템 등에 활용된다.

4. 용어 정리

  • 클러스터: 데이터 내에서 유사성이 높은 그룹
  • 비지도 학습: 정답(label) 없이 데이터 구조를 학습
  • 덴드로그램: 계층적 군집 결과를 시각화한 트리 구조

정리

클러스터링은 데이터의 숨겨진 구조를 발견하는 대표적인 비지도 학습 방법이다. 다양한 알고리즘과 평가 지표를 활용해 데이터의 특성을 효과적으로 파악할 수 있으며, 실제 데이터 분석, 마케팅, 이상치 탐지 등 실무에서 매우 널리 활용된다.
728x90

'데이터사이언스' 카테고리의 다른 글

데이터사이언스 핵심 내용 - 1  (1) 2025.06.03
데이터 전처리  (0) 2025.05.31
데이터 탐색  (0) 2025.05.29
데이터 관리  (1) 2025.05.28
데이터 수집  (0) 2025.05.26

데이터 전처리


데이터 전처리는 분석 목적에 맞게 데이터를 정제·가공하는 과정이다. 결측치, 이상치, 오류, 불필요한 변수 등을 처리해 데이터 품질을 높이고, 정확한 분석과 예측 모델링을 위한 필수 단계로 여겨진다.

1. 데이터 전처리의 필요성과 주요 단계

  • 데이터의 품질이 분석 결과와 모델 성능에 직접적인 영향을 준다.
  • 결측치와 이상치 처리, 데이터 변환, 변수 선택 등 다양한 기법이 필요하다.

2. 데이터 전처리의 주요 기법

단계 설명 예시
결측치 처리 누락값 대체, 삭제 등 평균/중앙값 대체, 행 삭제
이상치 처리 비정상적 값 탐지 및 처리 박스플롯, Z-score
데이터 변환 정규화, 표준화, 로그변환 등 Min-Max, Z-score, log변환
변수 선택/추출 불필요 변수 제거, 파생변수 생성 Feature selection, PCA

3. 데이터 전처리의 실제 절차

  1. 결측치와 이상치 탐색 및 처리
  2. 데이터 변환(정규화, 표준화 등) 적용
  3. 불필요한 변수 제거, 파생변수 생성
  4. 최종 데이터셋 구성 및 품질 점검

4. 용어 정리

  • 정규화/표준화: 값의 범위/분포를 일정하게 맞추는 변환
  • 파생변수: 기존 변수로부터 새로 만든 변수
  • PCA: 주성분분석, 차원축소 기법

정리

데이터 전처리는 데이터 분석의 성공을 좌우하는 핵심 과정이다. 결측치·이상치 처리, 데이터 변환, 변수 선택 등 다양한 기법을 활용해 데이터 품질을 높여야 하며, 모델의 성능과 신뢰도를 높이기 위해 반드시 거쳐야 하는 단계임을 기억해야 한다.
728x90

'데이터사이언스' 카테고리의 다른 글

데이터사이언스 핵심 내용 - 1  (1) 2025.06.03
클러스터링  (0) 2025.06.02
데이터 탐색  (0) 2025.05.29
데이터 관리  (1) 2025.05.28
데이터 수집  (0) 2025.05.26

데이터 탐색


데이터 탐색은 수집한 데이터의 특성과 구조를 이해하고, 분석 방향을 잡기 위한 중요한 과정이다. 탐색적 데이터 분석(EDA)을 통해 데이터의 분포, 이상치, 결측치, 변수 간 관계 등을 파악하며, 시각화와 통계적 지표를 적극 활용한다.

1. 데이터 탐색의 목적과 절차

  • 데이터의 기본 구조와 변수의 유형을 확인한다.
  • 기술통계량(평균, 중앙값, 분산 등)으로 데이터의 중심과 분포를 파악한다.
  • 시각화(히스토그램, 박스플롯, 산점도 등)로 데이터의 이상치, 분포, 변수 간 관계를 직관적으로 이해한다.
  • 상관분석 등으로 변수 간의 연관성을 분석한다.

2. 대표적인 탐색 방법과 지표

탐색 방법 주요 지표/설명 활용 예시
기술통계량 평균, 중앙값, 최빈값, 분산, 표준편차, 사분위수 데이터 요약, 분포 파악
시각화 히스토그램, 박스플롯, 산점도, 막대그래프 분포, 이상치, 관계 파악
상관분석 상관계수, 변수 간 선형관계 피어슨, 스피어만 계수
이상치/결측치 탐색 비정상적 값, 누락 데이터 확인 박스플롯, 결측치 분석

3. 데이터 탐색의 실제 절차

  1. 데이터 구조와 변수 유형 확인
  2. 기본 통계량 계산
  3. 시각화로 분포/이상치/관계 파악
  4. 상관분석 등 변수 간 관계 분석
  5. 결측치/이상치 처리 방향 결정

4. 용어 정리

  • EDA(Exploratory Data Analysis): 탐색적 데이터 분석
  • 박스플롯: 사분위수, 이상치 시각화
  • 결측치: 누락된 데이터 값
  • 상관계수: 두 변수 간 선형관계의 척도

정리

데이터 탐색은 분석의 방향을 잡고 데이터의 문제점을 미리 파악하는 데 매우 중요하다. 기술통계량과 시각화, 상관분석 등 다양한 도구를 활용해 데이터의 본질을 깊이 이해해야 하며, 이상치와 결측치 등 데이터의 품질 문제를 조기에 발견해 적절히 대응하는 것이 효과적인 분석의 시작점이 된다.
728x90

'데이터사이언스' 카테고리의 다른 글

클러스터링  (0) 2025.06.02
데이터 전처리  (0) 2025.05.31
데이터 관리  (1) 2025.05.28
데이터 수집  (0) 2025.05.26
데이터사이언스의 기반지식 학습  (0) 2025.05.23