본문 바로가기

전체 글

5. EM 알고리즘 이번 챕터의 주제는 이전 장에서 말한 가우스 혼합 모델에서 매개변수를 추정할 때 사용하는 알고리즘인 EM 알고리즘이다. EM은 Expectation-Maximization의 약자로 기댓값 최대화 알고리즘이라고 한다. 5.1  KL 발산5.1.1 표기 방법 변경수식이 많아져 이제부터 수식의 표현을 다음과 같이 변경한다.기댓값의 경우 연속 확률 변수 x가 있고 그 확률 밀도를 $p(x)$라고 가정하면 함수 $f(x)$에 대한 기댓값은 다음 식으로 표현한다.$E_{p(x)}[f(x)] = \int f(x)p(x)dx$이전까지는 기댓값을 $E[f(x)]$와 같이 표현하였지만 앞으로는 위 식과 같이 아래 첨자에 확률 밀도 함수를 넣어 $E_{p(x)}[f(x)]$로 표현한다.매개변수 표기 위치의 경우 이전까지는 .. 더보기
4. 가우스 혼합 모델 2, 3장에서 사용한 확률 분포는 정규분포였다. 하나의 값에 대한 일반적인 정규분포와 2개 이상의 값에 대한 다변량 정규분포를 이용하여 모델링을 진행하였는데, 세상의 모든 확률 분포가 하나의 정규분포로 이루어지지는 않는다. 여러 값과 여러 상황에 따라 여러개의 정규분포가 혼합된 형태를 띄는데, 정규분포를 혼합하여 생성하는 확률 분포를 가우스 혼합 모델혹은 가우시안 혼합 모델이라고 한다. 4.1 다봉분포남녀 키 혼합 분포사람의 키는 나이와 성별 정도를 특정한다면 정규분포를 따를 것이다. 이렇게 제한된 상황에 대해서는 하나의 정규분포로 표현이 가능하지만, 상황이 제한되지 않는다면 우리가 흔히 아는 하나의 봉우리 형태인 정규분포를 따르지 않는다.위 그림은 남녀전체에 대한 키 분포로 봉우리가 2개인 쌍봉 분포인.. 더보기
3. 다변량 정규 분포 이전에 배운 정규분포는 하나의 스칼라에 대한 정규분포였고 이번에 배울 것은 여러개의 실수로 이루어진 벡터의 정규분포에 대해 배운다.3.1 넘파이와 다차원 배열3.1.1 다차원 배열다차원 배열은 값 여러개를 한꺼번에 처리하기 위한 데이터 구조이다. 원소의 배열에는 방향이 있으며 이 방향을 축이라고 하고, 축의 개수를 차원이라고 한다.  스칼라: $1$백터 $\begin{pmatrix} 1 \\ 2 \\ 3\end{pmatrix}$행렬 $\begin{pmatrix} 1 & 2 \\ 3 & 4 \\ 5 & 6 \\ \end{pmatrix}$ 스칼라는 단순 숫자 하나를 뜻하고, 벡터는 하나의 축을 따라 나열되는 형태를 띈다. 행렬은 두개의 축을 따라 나열되는데 가로 방향을 행, 세로 방향을 열이라고 한다. 그리.. 더보기
2. 최대 가능도 추정 이번 장에서는 실제 데이터에서 얻어낸 분포를 정규분포에 적합 시키는 방법인 최대 가능도 추정Maximum Likelihood Estimation, MLE>에 대해 다룬다. 2.1 생성모델 개요이제야 생성모델에 대해 간단하게나마 이야기를 꺼낸다.2.1.1 생성모델 목표생성모델이란 특정 데이터x의 확률 분포 p(x)를 모델링(Metric으로 표현)한 다음 그 집단에서 선택된 것 같은 유사 데이터를 새롭게 생성하는 것이다. 좀 쉽게 표현하면 실제 데이터와 매우 유사한 새로운 데이터를 생성해내는 것이다. 여기서 중요한 것은 실제 데이터와 매우 유사하려면 실제 데이터 집단의 특징을 잘 모델링 해야 한다는 것이다. 이것을 위해 이전 장에서 확률분포의 매개변수를 공부하고 계산했던 것이다. 집단의 특징을 모델링하기 위.. 더보기
1장. 확률분포 1.1 확률 기초1.1.1 확률 변수와 확률 분포 얻을 수 있는 값이 확률적으로 결정되는 변수는 확률변수라 한다. 주사위를 예시로 들면 주사위를 던져 확률적으로 얻을 수 있는 값인 주사위의 눈 값을 확률 변수라 할 수 있다. 그리고 얻을 수 있는 모든 값에 대한 확률을 확률 분포라고 한다. 주사위의 눈에서 얻을 수 있는 값은 1, 2, 3, 4, 5, 6 총 6개이고 각 확률은 동일하므로 모든 값에 대한 확률 분포는 1/6으로 같다. 수식적으로 말하자면 주사위에 대해 확률 변수 x에 대한 확률분포 p(x)는 x가 1, 2, 3, 4, 5, 6 일 때 전부 1/6이다.  위 확률 분포에 따라 얻어낸 실제 값을 관측값, 데이터, 값이라고 하고 이 관측값의 집합을 샘플, 표본 이라고 한다. 위와 같은 경우는 .. 더보기
디지털포렌식 도구의 요구사항 디지털포렌식 도구는 하드웨어 기반의 장비와 소프트웨어 기반의 도구를 총칭하는 말로 분석도구, 수집도구를 통틀어 일컫는 말이다. 법정에서 디지털 증거가 증거능력을 인정받으려면 이러한 디지털 증거를 도출한 도구의 신뢰성이 보장되어야 하며 정확하고 객관적인 결과를 일관되게 산출한다는 것이 보장되어야 한다.대한민국 우리나라에서는 2008년 12월 19일 한국정보통신기술협회에서 "컴퓨터 포렌식을 위한 디지털 증거 분석도구 요구사항(Digital Evidence Analysis Tool Requirements for Computer Forensics)"을 제정하여 운영중이다. 해당 정보통신단체표준에서 요구하는 디지털 증거 분석도구의 요구사항은 유용성(Usability), 포괄성(Comprehensive), 정확성(.. 더보기
전자적 증거의 규제법률의 동향 배경 현대 컴퓨터는 필수적인 생활 수단이다. 따라서 컴퓨터를 통한 범죄는 지속적으로 발생하고 네트워크에 권한없이 접근하는 전통적인 공격 외에도 새로운 형태의 공격 및 범죄가 등장하고 있다. 이러한 범죄는 컴퓨터가 가지는 제반 특성(대량성, 익명성, 네트워크성, 전문성 등) 때문에 기존의 수사방식으로는 해결할 수 없는 한계가 있다. 특히 국경이나 관할의 문제도 꾸준히 제기되고 있기에 현행 법률은 이러한 컴퓨터 특성에 맞게 실체법적, 절차법적 양면에서 기존 법률을 수정하고 보완해야할 필요가 있다.실체법적 규제 새로운 범죄 유형을 법률러 처벌하는 규정은 계속해서 마련되고 있다. 컴퓨터, 모바일 등 특수매체를 통해 이루어지는 네트워크는 생활 뿐만 아니라 거의 모든 법률 행위의 수단이 되고 있다. 최근의 예시로는.. 더보기
1. 전자적 증거의 특성 의의디지털포렌식의 대상은 디지털 증거이다. 외국에서는 전자증거(Electronic Evidence), 전자적으로 저장된 정보(Electronic Stored Information, ESI)라는 표현을 더 많이 사용한다. 엄밀히 말하면 전자증거는 디지털 증거를 포함하는 상위 개념이라고 볼 수 있다. 여기서 전자증거의 정의는 전자적 증거에 관한 국제 조직 IOCE(International Organization on Computer Evidence)에서 "2진수 형태로 저장 혹은 전송되는 것으로서 법정에서 신뢰할 수 있는 정보"라고 정의했고, 전자적 증거에 관한 과힉실무 그룹 SWGDE(Scientific Working Group on Digital Evidence)에서는 "디지털 형태로 저장 전송되는 증거.. 더보기