어쩌다 보니 블로그 챌린지에 뒤늦게 참여하고 있는데, 마땅히 정리해 둔 내용이 없어 자연스럽게 일기를 적어본다. 오늘도 고객사에서의 하루가 얼레벌레 흘러간 것 같다 그래도 선배와 가볍게 저장프로시저에 문제를 같이 확인하면서 어느 정도 문제가 보여 앞으로 내가 현업에 잘 얘기한다면 잘 해결할 수 있지 않을까 싶다. 처음이라 서툰데도 묵묵히 뒤에서 서포트해 주시는 덕분에 그저 아무 탈 없어 두 달 동안의 운영업무를 잘 마무리하고 싶을 뿐이다...🥲
나는 어느덧 지금의 회사에서 1년의 경력이 생겼고, 이제 막 2년 차가 되었다.여태 나는 2개의 프로젝트와 몇몇 PoC를 거치면서 다양한 경험을 할 수 있었고, 지금은 나 홀로 외주사에 파견 나와 2달간 DW/BI 업무를 수행하고 있다.올해의 나는 무언가를 새로 배운다는 것은 참 쉽지 않다는 것을 배웠다. 프로젝트가 진행되면서 시대의 흐름에 뒤처지지 않게 새로운 기술, 회사가 원하는 기술들을 배워야 했다. 배우는 걸 싫어하는 건 아니지만 일하면서 기술을 배우고, 이를 증명하기 위해 자격증을 취득하는 일이 정말 쉽지 않았다. 그리고 드디어 결심만 하던 운동을 시작했기 때문에 왕복 4시간을 출퇴근하는 장거리 통근러에겐 하루가 너무나 길지만, 많은 걸 해내기엔 턱 없이 시간이 부족했다.이러한 삶을 얼마나 더 ..
Azure Data Lake Storage Gen2Data Lake는 일반적으로 Blob 또는 파일로 저장된 해당 기본 형식의 데이터 리포지토리Azure에 구축된 빅데이터 분석을 위한 포괄적이고 확장성이 있는 비용 효육적인 Data Lake 솔루션파일 시스템과 스토리지 플랫폼을 결합하여 데이터에 대한 인사이트를 빠르게 파악할 수 있도록 지원Azure Blob 스토리지 기능을 기반으로 하여 특히 분석 워크로드에 맞게 최적화분석 성능, Blob 스토리지의 계층화 및 데이터 수명 주기 관리 기능, Azure Storage의 고가용성, 보안 및 내구성 기능을 사용할 수 있음.이점수백 기가바이트의 처리량을 안전하게 처리하면서 엑사바이트 규모의 데이터의 양과 다양성을 처리하도록 설계되어 Data Lake Stora..
자료 원문 Introduction to data engineering on Azure - TrainingThis module describes how Microsoft Azure provides a comprehensive platform for data engineering.learn.microsoft.com 데이터 엔지니어링 데이터 유형 구조적주로 관계형 데이터베이스와 같은 테이블 기반 원본시스템 또는 CSV파일과 같은 플랫 파일에서 가져온다.행과 열이 파일 전체에서 일관되게 정렬 됨 반 구조적원본 시스템에 로드하기 전에 평면화해야 할 수 있다.평면화할 때 이 데이터는 테이블 구조에 깔끔하게 맞출 필요가 없다.ex. JSON 비 구조적표준 관계형 모델에 부합되지 않는 key-value로 저장된 데이터..
데이터 레이크(Data Lake)대규모 데이터 분석 처리 시나리오 에서 공통으로 나타나는 요소로, 대량의 파일 기반 데이터가 수집되어 분석된다.데이터 웨어하우스(Data Warehouse)읽기 작업에 최적화된 관계형 스키마 데이터를 저장하는 확립된 방법데이터 레이크하우스(Data Lakehouse)DataLake의 유연하고 확장성 있는 스토리지와 DataWarehouse의 관계형 쿼리 의미 체계가 결합된 형태 Data Warehouse와 Data Lakehouse의 차이 DataLakeData Warehouse유형정형, 반 정형, 비 정형관계형, 비관 계형정형관계형스키마읽기 시 스키마쓰기 시 스키마Format원시필터링되지 않음처리됨, 점검됨원본빅 데이터, IoT, 소셜미이더, 스트리밍 데이터응용 프로그램..
이 전에 학교에서 '혼자 공부하는 파이썬' 이라는 책을 교재로 파이썬 수업을 들은 기억이 있다.그전부터 한빛미디어 출판사는 나에게서 떨어질 수 없는 영원의 동반자와도 같은 책이었지만,, 혼자 공부하는 시리즈는 이 전에 봤던 책들과 달리 친근한 문장과 다양한 예시로 빠르고 정확하게 이해할 수 있는데 큰 도움을 주었던 책이었다.그 이후로 학교를 졸업하고, 일을 시작하고 난 뒤, 다른 책들을 읽을 일이 있을까? 싶었는데 마침 6월에 혼공학습단을 모집한다는 글을 어디선가 알게 되었다. 이 기회에 예전에 배웠던 머신러닝과 딥러닝을 다시 한번 복습하면서 정확하게 이해하고 넘어가고 싶다는 마음가짐으로 달력에 모집일자를 적어두고 기다렸던 것 같다.혼공학습단이 시작되었을 땐, 진행중이던 프로젝트가 매우 바쁜 시기였다. ..
Ch.07-1 확인문제 1. 어떤 인공 신경망의 입력 특성이 100개이고 밀집층에 있는 뉴런 개수가 10개일 때 필요한 모델 파라미터의 개수는?A: 1010개,파라미터의 개수를 구하는 방법은 입력 특성에 출력층의 뉴런 개수를 곱한 가중치에 각 뉴런이 가지는 절편 개수를 더한다.(입력특성) * (뉴런 개수) + (뉴런 개수)100 * 10 + 10 = 1010 2. 케라스의 Dense 클래스를 이용해 신경망의 출력층을 만드려고 합니다. 이 신경망이 이진 분류 모델이라면 activation 매개변수에 어떤 활성화 함수를 지정해야 하나요?A: Signoid 함수Dense층은 밀집층, 완전 연결층이라고도 하며 뉴런과 입력층의 변수들이 모두 한 번씩 곱해져 가중치가 모두 생긴다. 밀집층에서는 분류하려는 클래스..
[기본 숙제]k-평균 알고리즘은 주어진 데이터를 k개의 클러스터로 묶는 알고리즘으로, 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작한다. 자율 학습의 일종으로, 레이블이 달려 있지 않은 입력 데이터에 레이블을 달아주는 역할을 수행한다K-평균 알고리즘 작동 방식1. 무작위로 K개의 클러스터 중심 정하기2. 각 샘플에서 가장 가까운 클러스터 중심을 찾아 해당 클러스터의 샘플로 지정3. 클러스터에 속한 샘플의 평균값으로 클러스터 중심 변경4. 클러스터 중심에 변화가 없을 때 까지 2번으로 돌아가 반복 [추가 숙제]1. 일반적으로 데이터 셋에서 주성분은 특성의 개수만큼 찾을 수 있다.2. (1000, 100) 크기 데이터셋에서 10개의 주성분을 찾아 변환하면 샘플의 수는 그대로 존재하며, 특성의 수..
[필수과제]교차검증은 검증세트를 떼어 내어 평가하는 과정을 여러 번 반복하는 과정을 의미한다.교차 검증을 통해 얻은 점수들의 평균으로 최종 검증 점수를 얻을 수 있다.일반적을 5-폴드 교차 검증이나 10-폴드 교차검증을 많이 사용하며, 이를 통해 데이터의 80~90%까지 훈련에 사용할 수 있다. [선택과제]랜덤 포레스트(Random Forest)랜덤 포레스트는 가장 대표적인 앙상블 학습 알고리즘으로, 결정 트리를 훈련하기 위해 부스트랩 샘플을 만들고 전체 특성 중 일부를 랜덤하게 선택하여 결정트리를 만든다. 엑스트라 트리(Extra Tree)엑스트라 트리는 랜덤 포레스트와 매우 비슷하지만 부트스트랩 샘플을 사용하지 않고 노드를 분할할 때 최선이 아니라 랜덤하게 분할한다. 따라서 랜덤 포레스트보다 훈련 ..
[필수 과제]로지스틱 회귀로지스틱 회귀는 분류 모델의 한 종류로 선형 회귀와 동일하게 선형 방정식을 학습한다. 예를 들어 아래와 같이 나타낼 수 있다.여기서 a, b, c, d e는 가중치, 혹은 계수를 의미하고, z는 어떤 값도 가능하다.하지만 이를 확률로 나타내려면 0과 1사이의 값으로 나타내야한다. 이때 사용되는 함수가 바로 시그모이드 함수(Sigmoid function)이다. 시그모이드 함수는 z가 아주 큰 음수일때 0이 되고, 아주 큰 양수일때 1이 될 수 있게 아주 복잡한 계산을 통해 위와 같은 그래프를 만들 수 있다. [선택 과제]에포크 횟수가 적으면 모델이 훈련 세트를 덜 학습하지만, 횟수가 늘어날 수록 훈련 세트를 학습을 더 하여 훈련 세트에 아주 잘 맞는 모델이 만들어진다. 이를 바꿔말..