목록Data Engineering (5)
새벽을 밝히는 붉은 달
본 글은 쓰기에 앞서, 정보 전달의 목적을 띈 글이라기보다 내가 사용했던 capacity-scheduler에 대해 기록을 남기기 위함을 알린다. 1. YARN 하둡의 클러스터 자원 관리 시스템인 YARN은 Hadoop2에서 맵리듀스의 성능을 높이기 위해 처음 도입되었다. YARN은 클러스터 전체 자원의 사용량을 관리하는 리소스 매니저와 컨테이너를 구동하고모니터링하는 역할을 하는 노드 매니저 등 두 가지 유형의 장기 실행 데몬을 통해 핵심 서비스를 제공한다. 2. YARN의 실행 구조 클라이언트는 YARN에서 애플리케이션을 구동하기 위해 리소스 매니저에 접속하여 애플리케이션 마스터 프로세스의 구동을 요청한다. 리소스 매니저는 컨테이너에서 애플리케이션 마스터를 시작할 수 있는 노드 매니저를 하나 찾는다. 애..
1. 들어가며 presto는 이전부터 많이 들었던 서비스이자 자주 사용하는 AWS Athena가 presto기반 문법을 사용하고 있기 때문에 익숙했다. Trino는 최근에 많이 언급되는 것을 보았는데, 어디선가 presto가 trino로 바뀌었다~ 정도로 들어서 둘이 이름이 같구나 정도로 이해하고 있었는데 datahub ingestion guide 읽어보니까 presto랑 trino랑 다르게 취급을 하고 있어서 혼란이 왔다. 그래서 이번에 둘에 대해서 알아보기로 했다. 2. 결론부터 이야기하면, 둘이 다른게 맞다 나 같은 사람이 많았나보다. starbust에서 Trino와 Presto의 차이가 무엇인지에 대해 설명을 해둔 글(The Difference Between PrestoSQL, PrestoDB, ..
글에 앞서, 나는 airflow 1.10.7 버전을 사용하고 있음을 알린다. airflow에서는 특정 상황을 만족할 시, callback 함수를 실행할 수 있도록 제공한다. 만약 더 자세한 정보를 읽고 싶다면 공식 문서에서 확인해볼 수 있다. 총 4가지의 callback 함수가 있는데, 내가 사용한 것은 on_failure_callback이다. DAG의 특정 task가 실패할 경우, on_failure_callback을 부르는데, 이때 Xcom value를 사용하여 처리에 활용을 하려고 했다. 그런데, Xcom value를 불러오면 None만 return하는 문제가 있었다. Airflow 2점 대에서 수정이 된 사항인지는 모르겠지만, 구글링을 해보니 on_failure_callback에서는 Xcom va..
최근에 진행하는 프로젝트에서 FastText를 다루게 되었는데, FastText의 pretrained-model을 사용해서 text-classifcation을 위해 추가학습을 하려고 했는데, 생각보다 방법을 찾기가 어려웠어서 이렇게 기록해둔다. 1. pretrained-model 받아오기 https://fasttext.cc/docs/en/crawl-vectors.html fastText Library for efficient text classification and representation learning fasttext.cc 위 링크를 타고 들어가면 fasttext에서 wikipedia 등의 자료를 사용하여 학습시킨 pretrained model을 제공한다. 나는 한국어를 사용할 것이므로 cc.ko..
다음은 사이토 고키의 밑바닥부터 시작하는 딥러닝을 읽고 정리한 내용입니다. 잘못된 내용, 혹은 수정해야할 사항이 있다면 댓글로 알려주시면 감사하겠습니다. 퍼셉트론(perceptron)은 1957년, 프랑크 로젠블라트가 고안한 알고리즘이다. 퍼셉트론은 신경망(딥러닝)의 기원이 되는 알고리즘이기 때문에 그 구조를 배워야 한다. 1. 퍼셉트론이란? 퍼셉트론은 다수의 신호를 입력으로 받아 하나의 신호를 출력한다. 퍼셉트론 신호는 1이나 0의 두 가지 값을 가질 수 있다. 다음과 같은 구조를 가지고 있다. 여기에서 x1과 x2는 입력 신호, y는 출력 신호, w1과 w2는 가중치를 뜻한다. 입력 신호가 뉴런에 보내질 때는 각각 고유한 가중치가 곱해진다. (w1x1, w2,x2) 뉴런에서 보내온 신호의 총합이 정해..