목록Padak Padak (13)
공돌이는 파닥파닥
http://cvlab.epfl.ch/~ksmith/tutorial/rjmcmc.php
지난 글에서는 보다 빨리 Frequent itemset(이하 Fset)을 찾는 방법을 소개하였다. 그러나, 이전에 소개한 내용은 판매 상품들의 계층적인 구조를 생각하지 않았다. 실제로 판매되는 상품들은 대부분 계층적인 구조로 나타낼 수 있고 이러한 구조에서, Category1을 구입한 사람이 Category2를 구입하거나, Sub Category1을 구입하는 경우를 찾고 싶다면 어떻게 해야할까? 이번에는 계층적인 구조를 가지는 자료에서 Fset을 찾는 방법을 알아보자. 참고논문 : R. Srikant and R. Agrawal, "Mining Generalized Association Rules", VLDB 1995. PDF ps.gz Abstract Google Scholar Jacket과 Hiking..
지난 게시글에 Naïve한 Frequent Associatoin Rule Algorithm은 2의 n승만큼의 연산이 필요하다고 했었다. 이는 만일 데이터의 크기가 10개라면… 1024번의 연산이 필요하다는 의미이다. (아이템이 중복되어도 10개인 것이다. 같은 것이 있어도 또 세고 넘어가야 한다.) 이를 해결하기 위한 알고리즘으로 Apriori 알고리즘을 소개한다. Apriori 알고리즘의 중요한 원칙은 다음과 같다. 원칙: Frequent하지 않은 item set은 그 superset 역시 Frequent 하지 않다. 이 간단한 원칙 하나로, 연산의 수를 크게 줄일 수 있다. 참고 논문 : R. Agrawal and R. Srikant, "Fast Algorithms for Mining Associat..
이 Association Rules란 무엇인가... 하면 데이터 상호간의 연관 규칙을 찾아내는 기술이라고 한다. 예를 들어 구매 번호 구매 상품들 1 {라면, 우유, 오렌지, 쥬스, 커피} 2 {라면, 우유, 소시지} 3 {라면, 우유, 커피} 4 {오렌지 쥬스, 비누, 샴푸} 사용자 1, 2, 3, 4에 의해 물품들이 위와 같이 판매 되었다면 {라면, 우유} {커피} 즉, 라면과 우유를 산 사람은 커피도 산다라는 간단한 규칙을 얻을 수 있다. 이러한 규칙을 설명하는데 두 가지의 파라메터를 이용하는데 1. 지지도(support) 전체 트랜젝션 중에서 그 규칙을 가지고 있는 트랜젝션의 % * 위의 예제에서는 50%라고 할 수 있다. 2. 신뢰도(confidence) 규칙의 왼쪽에 있는 것들을 산 사람들..
이클립스 CDT를 오랫만에 사용하게 되었다. 그러나 왠걸, 자동완성이 팍팍 떠 주질 않는 것이다. 이유는 Visual Studio에서 자동완성 단축키가 [Alt + /] 로 되어있기 때문이다. 이를 Ctrl+Space로 바꾸기 위해서는 다음과 같은 설정을 한다. 1. 사용하는 우분투 입력기에서 Ctrl+Space가 한영키나 기타 다른 키로 맵핑되어 있다면 그 설정을 바꾼다. (e.g. iBUS 1.2.0.20091215 ) 2. 입력기에서 Ctrl+Space를 제거하였으면 이제 Eclipse의 환경설정에서 Key를 바꿔야 한다. (Eclipse Helios default : Alt+/) menu bar의 windows -> Preference -> General -> Key 에서 contents assi..
오른쪽 상단의 렌치 모양 -> 옵션 저기서 동기화 설정 -> 구글 계정, 암호 넣고 확인 그러면 위 그림과 같이 바뀜. 이제 북마크, 확장프로그램(Extensions) 테마가 동기화 설정된 Chrome끼리는 항상 같게 쓸 수 있음. 다들 아는 것 같은데 한번 올려봤음.
뭐 대단한건 아니고.... 하나의 이미지에서 SIFT feature들을 찾아서 같은 이미지의 한 부분을 회전, 확대하여 비슷한 SIFT feature를 연결한 것이다. (MATLAB vlfeat-0.9.9 toolbox 예제를 살짝 바꾼 것이다.) 이를 토대로 하고자 했던 것이 하나의 드라마 세트장에서 촬영한 Scene을 초당 1장 씩 이미지로 추출하여 각 이미지에서 SIFT feature를 뽑고 하나의 Scene에서 비교하면, 배경에 대한 visual word를 만드는 토대가 되지 않을까... 했던건데... 쉽진 않을 것 같다. http://www.vlfeat.org/
FFMpeg이라는걸 사용하면 Command LIne으로 어떻게 잘 되긴 하는데, 지금 해야하는 작업이 자막이 나오는 시간 동안만을 필요로 하는 것이라서 불필요하게 파일을 여러번 읽어야 한다. 게.다.가 FFMpeg으로 이미지가 뽑히는 애들이 있는가 하면 아예 이미지 생성이 안되는 애들도 있고 처음에는 이미지가 나오다가, 나중에 안나오는 애들도 있는데 기가 막힌 것은 셋 다 같은 코덱으로 인코딩된 파일이라는 거...(튀기가 있긴 하지만 하여튼) 원인도 모르겠고, 그리 중요한 작업이 아닌 전처리 작업이기 때문에 패스... -- 끝 --
K={k_{1}, k_{2},...,k_{n}}
학부시절 확률과 통계 시간에 베이즈 정리에 대해 배운 적이 있지만 그저 조건부 확률의 앞, 뒤를 바꾸는 일이라고만 생각을 했었는데 자세히 들여다 보니 그런 것이 아니다. 다음 식에서 x는 변수, C는 분류하고자 하는 class를 뜻한다. 변수 x는 class C에 속한다고 생각하면 될 것이다. Product Rule 위 식의 의미는 class C에 속하면서 하나의 변수값 x (single feature)를 가지는 경우의 확률을 구한 것이다. class와 변수의 관계를 설명하기 위해서는 바구니 두개와 두 종류의 과일로 설명할 수 있다. 과일을 꺼낼 때, 붉은 상자에서 꺼낼 확률이 40%이고 파라 상자에서 꺼낼 확률이 60%라고 하자, 그러면 각 상자에서 사과를 꺼낼 확률 P(사과)가 위 식에서의 P(x)에..