2020년 상반기 회고
06 Jul 2020 | Daily
2020 - 1
벌써 반 년이 지났습니다. 뭇 프로그래머들이 그러하듯 그동안에 한 것들을 짧게나마 회고 식으로 적어보려 합니다. 반기 회고지만 코딩을 작년 11월 중순부터 시작했기 때문에, 11월 중순부터 연말까지의 기간을 포함하여 약 7개월 동안의 일을 (의식의 흐름대로) 적습니다.
2019. Dec
11월 25일에 교육을 시작했고 2주 전부터 예습을 시작했으니, 아마 처음으로 print("Hello python!")
을 한 것은 11월 11일 전후가 되겠습니다. 교육 시작 전까지는 인프런에 있는 최성철 교수님의 강의 를 들으며 파이썬 기초 지식을 공부하였습니다. 야구게임 문제를 푸느라 이틀 머리를 싸맸던 기억이 나네요. (지금이라면 금방 풀텐데 ㅠㅠ)
작년 11월 20일에는 충무로에서 빅데이터 커리어톡 을 들었습니다. 동국대에서 진행하는 프로그램 수료자 + 추가 인원을 모집하여 빅데이터 현직자의 이야기를 들을 수 있었던 자리였습니다. 마이뮤직테이스트 그로스팀 리드 김명수님, 하이퍼커넥트 ML엔지니어 서석준님, 쏘카 ML엔지니어 변성윤님이 연사로 서주셨고 데이터 사이언스에 대한 이런저런 이야기를 들을 수 있었습니다. 다만, 당시에는 데이터에 대한 지식이 너무 부족해서 일단 받아적기만 했던 게 아쉽네요. 지금 비슷한 자리가 있다면 오히려 그 때보다 훨씬 더 좋은 자리가 될 것 같다는 생각이 듭니다.
그리고 25일 교육을 시작했습니다. 11월 말부터 12월 초까지 HTML, CSS, JS, Java 등을 배웠습니다. 너무 잡다하게(?) 배웠던지라 커리큘럼이 마음에 들지는 않았지만 코딩에 대해서 아는 것도 없었고 열심히 듣기만 했던 기억이 있네요.
12월 중순부터 약 4주간 R을 배웠습니다. 이것도 지금 생각해보면 ‘그 시간에 파이썬이나 좀 더 할 걸’이라는 생각이 들기는 합니다. 지금와서 생각해보니 교육의 커리큘럼이 더욱 마음에 들지 않네요. 그래도 R 수업을 통해서 전반적인 기초 통계학 내용이나 다양한 분석을 해볼 수 있었던 것은 좋았습니다. 통계학을 좀 더 공부해봐야 겠다는 생각이 들기도 했고요.
따라하며 배우는 데이터 과학 책을 보며 공부했던 것이 많은 도움이 되었습니다. 교육에서도 제대로 알려주지 않는 p-value, 신뢰구간에 대한 정의를 알 수 있었습니다. 그리고 어떤 데이터가 주어졌을 때 어떤 분석방법을 사용해야 하는 지도 자세하게 나와있어 도움이 되었고요.
2020. Jan
돌고돌아 1월 중순에 R수업이 끝나고 파이썬 기초를 시작했습니다. 시간이 너무 짧았기 때문에 디테일하게 공부하지는 못했습니다. 다만 교육 시작전에 2주 동안 공부했던 내용을 복습하기도 하는 시간이었습니다. 이맘때 쯤 학원 내에서도 파이썬 스터디를 꾸려 기본적인 알고리즘 문제를 풀기도 했고요. 그리고 당시 데이터 분석의 기본이 되는 Numpy, Pandas 등에 대해서도 배웠습니다. 이것도 너무 짧게 배운 것이 좀 아쉽네요. 당시에 Numpy를 좀 더 열심히 했으면 모델의 코드를 좀 더 빨리 볼 수 있지 않을까하는 생각도 듭니다. (이제라도 열심히… !!)
그리고 설날에 쉬는 동안 이 깃허브 블로그를 만들었습니다. 당시에 NLP를 배우지는 않았습니다만 애초부터 관심이 있기도 했고 ML에 대해서도 정말 정리가 잘 되어있는 (그리고 저와 이름이 같은 분이 하시는) Ratsgo님의 블로그 를 (메일로 허락맡은 뒤에) 포크하여 만들게 되었습니다.
개인적으로 뭘 쓰면서 해야 정리가 되는 스타일이라 만들고 부터 지금까지 뭘 공부하면 대강대강 정리해서 적고 있습니다. 지금은 독자를 상정하지 않고 저만 보기 위해서 써놓는 글이라 매우 불친절하지만 언젠가 한 번 대대적인 고쳐쓰기를 해야겠다는 마음을 가지고 있네요.
2020. Feb
2월부터는 교육에서는 파이썬 머신러닝 완벽 가이드 책으로 진도를 나갔습니다. 요때 당시에 엄청 열심히 공부했던 기억이 있네요. 맨날 ICT COC가서 밤새서 핸즈온 머신러닝 보고 정리하고 예제코드 쳐보고 하면서 열심히 했던 것 같습니다. 그리고 교육에서도 학습조장(?)을 맡게 돼서 저도 헷갈리는 내용을 설명해줘야 했기 때문에 음청 빡세게 공부했네요. 그래도 어려운 내용은 어려웠고 지금 생각해보면 오개념도 꽤나 있었던 것 같습니다. 그리고 SVM처럼 독학이 어려웠던 부분은 대강의 감만 익히고 넘어갔던 것 같습니다.(지금도 커널에 대한 수학적 트릭은 잘 모르겠습니다 ㅠㅠ)
요 당시에는 캐글 데이터도 많이 만져보고 프로젝트도 있어서 이런 저런 알고리즘을 돌려보는 기회가 되었습니다. 다만 당시에는 종류에 집착해서 너무 막 돌려본 감이 없지 않아 있습니다. 지금 돌린다면 데이터의 특성에 좀 더 집중해서 맞는 알고리즘을 사용해야 겠다는 생각이 있긴 하네요.
그리고 2월 24일부터는 코로나 때문에 교육을 쉬게 되었습니다. 집에 있으면 공부를 잘 못하는 스타일이라(굳이 교육을 신청한 이유도 이 때문) 한 1주일 동안은 공부를 많이 못했습니다. 당시에는 밖에도 거의 못나갔으니…
2020. Mar
3월 초부터는 같이 교육을 듣는 형 과 책들어와써 프로젝트를 시작했습니다. 크롤링 배울 때 연습삼아 미리 짜놓았던 코드를 활용하여 알라딘 중고매장 검색 결과를 크롤링하여 알림을 보내주는 웹사이트입니다. 프로젝트 초반에는 마음이 심난해서 잘 집중을 못했었네요. 아마 이 글의 대상이 되는 7개월 동안 가장 집중이 안되던 2주가 아닐까 합니다. (같이 프로젝트 했던 형에게는 이 자리를 빌어 한 번 더 감사와 사과를…)
당시에 너무 집중을 못해서 빅데이터 커리어톡에서 뵈었던 성윤님께 다짜고짜 DM도 드렸는데 엄청 답장 잘해주셔서, 그리고 당시에 하던 프로젝트 과제 하나씩 해나가다 보니 멘붕에서 헤어나올 수 있었던 것 같습니다. 성윤님께도 이 자리를 빌어 감사를 드립니다.
프로젝트가 끝날 즈음에는 그래도 제정신을 차려서 이거저거 많이 해본거 같습니다. 특히 웹 개발에 대해서 아는 바가 하나도 없었는데 한 달 동안의 프로젝트를 통해서 플라스크나 DB기초에 대해서 뭔가를 해볼 수 있는 기회였던 것 같네요. 그리고 서비스는 애초부터 내가 만들고 싶었던 거라 지금까지도 너무 잘쓰고 있습니다. (by 소득 대비 알라딘 헤비 유저)
2020. Apr
책들어와써 프로젝트가 3월 말을 끝으로 어느 정도 마무리되었고 4월 중순에는 코로나 때문에 중단되었던 교육도 다시 재개되었습니다. 사실 최종 프로젝트를 위해서 조를 합치기도 하고, 주제를 정하느라 거의 2주 정도를 날리긴 했습니다. (교육 진행하는 쪽이랑 나름의 마찰도 좀 있었고…) 그래도 지금 와서 생각해보면 그 때 프로젝트 주제를 기획하는 데 오랜 시간을 쓰길 잘한 것 같다. (이 프로젝트 주제도 예전부터 내가 하고 싶은 걸 한 기분이 없지 않아 있지만…)
그렇게 주제는 돌고 돌아 ‘자소서 작성 도우미 프로젝트’가 되었고 주제를 정하고 나니 어느 새 5월이 되었습니다.
2020. May
거의 프로젝트에 올인한 달입니다. 다른 조보다 주제 정하는 게 늦기도 했고, 우리 조에서 쓰기로 한 KoGPT-2 같은 건 책에서는 자료를 구할 수가 없어서 구글링을 엄청했던 기억이 나네요. Finetuning 코드 작성하신 분에게 깃헙 이슈로 많이 여쭤보기도 하고 문제를 풀기 위해서 온갖 수를(?) 다 써본 것 같습니다.
(자연어 데이터가 늘 그렇듯) 가장 큰 문제는 손으로 해야하는 전처리였는데 VScode 덕분에 완벽하진 않지만 많은 부분을 정제할 수 있었습니다. 약 2주 간의 전처리 끝에 학습도 제대로 돌릴 수 있었고 학습 시 나오는 샘플 문장도 꽤 만족스럽게 나왔습니다. 학습하고 모델 연구하는 동안 나머지 팀원들이 웹 개발 열심히 해줘서 웹에다가 모델 얹는 것도 생각보다 빠르게 되었습니다.
뭔가 시간은 엄청 부족한 느낌이었는데 후다닥 하다보니 이래저래 다 된 한 달이었습니다. 개인적으로는 GPT2 등 트랜스포머 변형 모델을 (이론으로든 실전으로든) 처음 접했던 기회가 되었습니다.
2020. Jun
6월 12일까지 자잘한 오류 수정과 발표를 하고 1등이라는 결과를 얻어냈네요. 교육과정 전체가 마음에 들지는 않았습니다만 어쨌든 만족스러운 결과를 얻는 것은 항상 좋은 듯합니다.
교육이 끝나고 나서는 원격 출첵 스터디도 만들어서 열심히 공부하고 있습니다. 사실 아직까지는 코드보다는 이론 위주로 공부하고 있는데 7월 부터는 코드의 비중을 많이 늘려나갈 예정입니다. 물론 공부도 꾸준히 하고요. 그래도 강필성 교수님 자연어 강의 쭉 들으면서 자연어처리에 대한 대략적인 개념을 잡아나갈 수 있었다. 기회가 된다면 강의에서 소개해주신 논문도 좀 보고 다른 자료 참고하면서 구현도 해 볼 예정.
다음 반기는 이번 반기보다 코드를 좀 더 많이 쳤으면 한다. 그리고 책이나 인강같은 피상적인 공부가 아니라 실제적인 공부로 넘어가는 시기가 되었으면… + 구직 활동도 열심히 해야하는데 공부가 더 재미있으니 큰일이다 ㅠㅠ (자소서 도우미 만들어놓고도 자소서 쓰기가 싫기도 하고…)
2020 - 1
벌써 반 년이 지났습니다. 뭇 프로그래머들이 그러하듯 그동안에 한 것들을 짧게나마 회고 식으로 적어보려 합니다. 반기 회고지만 코딩을 작년 11월 중순부터 시작했기 때문에, 11월 중순부터 연말까지의 기간을 포함하여 약 7개월 동안의 일을 (의식의 흐름대로) 적습니다.
2019. Dec
11월 25일에 교육을 시작했고 2주 전부터 예습을 시작했으니, 아마 처음으로 print("Hello python!")
을 한 것은 11월 11일 전후가 되겠습니다. 교육 시작 전까지는 인프런에 있는 최성철 교수님의 강의 를 들으며 파이썬 기초 지식을 공부하였습니다. 야구게임 문제를 푸느라 이틀 머리를 싸맸던 기억이 나네요. (지금이라면 금방 풀텐데 ㅠㅠ)
작년 11월 20일에는 충무로에서 빅데이터 커리어톡 을 들었습니다. 동국대에서 진행하는 프로그램 수료자 + 추가 인원을 모집하여 빅데이터 현직자의 이야기를 들을 수 있었던 자리였습니다. 마이뮤직테이스트 그로스팀 리드 김명수님, 하이퍼커넥트 ML엔지니어 서석준님, 쏘카 ML엔지니어 변성윤님이 연사로 서주셨고 데이터 사이언스에 대한 이런저런 이야기를 들을 수 있었습니다. 다만, 당시에는 데이터에 대한 지식이 너무 부족해서 일단 받아적기만 했던 게 아쉽네요. 지금 비슷한 자리가 있다면 오히려 그 때보다 훨씬 더 좋은 자리가 될 것 같다는 생각이 듭니다.
그리고 25일 교육을 시작했습니다. 11월 말부터 12월 초까지 HTML, CSS, JS, Java 등을 배웠습니다. 너무 잡다하게(?) 배웠던지라 커리큘럼이 마음에 들지는 않았지만 코딩에 대해서 아는 것도 없었고 열심히 듣기만 했던 기억이 있네요.
12월 중순부터 약 4주간 R을 배웠습니다. 이것도 지금 생각해보면 ‘그 시간에 파이썬이나 좀 더 할 걸’이라는 생각이 들기는 합니다. 지금와서 생각해보니 교육의 커리큘럼이 더욱 마음에 들지 않네요. 그래도 R 수업을 통해서 전반적인 기초 통계학 내용이나 다양한 분석을 해볼 수 있었던 것은 좋았습니다. 통계학을 좀 더 공부해봐야 겠다는 생각이 들기도 했고요.
따라하며 배우는 데이터 과학 책을 보며 공부했던 것이 많은 도움이 되었습니다. 교육에서도 제대로 알려주지 않는 p-value, 신뢰구간에 대한 정의를 알 수 있었습니다. 그리고 어떤 데이터가 주어졌을 때 어떤 분석방법을 사용해야 하는 지도 자세하게 나와있어 도움이 되었고요.
2020. Jan
돌고돌아 1월 중순에 R수업이 끝나고 파이썬 기초를 시작했습니다. 시간이 너무 짧았기 때문에 디테일하게 공부하지는 못했습니다. 다만 교육 시작전에 2주 동안 공부했던 내용을 복습하기도 하는 시간이었습니다. 이맘때 쯤 학원 내에서도 파이썬 스터디를 꾸려 기본적인 알고리즘 문제를 풀기도 했고요. 그리고 당시 데이터 분석의 기본이 되는 Numpy, Pandas 등에 대해서도 배웠습니다. 이것도 너무 짧게 배운 것이 좀 아쉽네요. 당시에 Numpy를 좀 더 열심히 했으면 모델의 코드를 좀 더 빨리 볼 수 있지 않을까하는 생각도 듭니다. (이제라도 열심히… !!)
그리고 설날에 쉬는 동안 이 깃허브 블로그를 만들었습니다. 당시에 NLP를 배우지는 않았습니다만 애초부터 관심이 있기도 했고 ML에 대해서도 정말 정리가 잘 되어있는 (그리고 저와 이름이 같은 분이 하시는) Ratsgo님의 블로그 를 (메일로 허락맡은 뒤에) 포크하여 만들게 되었습니다.
개인적으로 뭘 쓰면서 해야 정리가 되는 스타일이라 만들고 부터 지금까지 뭘 공부하면 대강대강 정리해서 적고 있습니다. 지금은 독자를 상정하지 않고 저만 보기 위해서 써놓는 글이라 매우 불친절하지만 언젠가 한 번 대대적인 고쳐쓰기를 해야겠다는 마음을 가지고 있네요.
2020. Feb
2월부터는 교육에서는 파이썬 머신러닝 완벽 가이드 책으로 진도를 나갔습니다. 요때 당시에 엄청 열심히 공부했던 기억이 있네요. 맨날 ICT COC가서 밤새서 핸즈온 머신러닝 보고 정리하고 예제코드 쳐보고 하면서 열심히 했던 것 같습니다. 그리고 교육에서도 학습조장(?)을 맡게 돼서 저도 헷갈리는 내용을 설명해줘야 했기 때문에 음청 빡세게 공부했네요. 그래도 어려운 내용은 어려웠고 지금 생각해보면 오개념도 꽤나 있었던 것 같습니다. 그리고 SVM처럼 독학이 어려웠던 부분은 대강의 감만 익히고 넘어갔던 것 같습니다.(지금도 커널에 대한 수학적 트릭은 잘 모르겠습니다 ㅠㅠ)
요 당시에는 캐글 데이터도 많이 만져보고 프로젝트도 있어서 이런 저런 알고리즘을 돌려보는 기회가 되었습니다. 다만 당시에는 종류에 집착해서 너무 막 돌려본 감이 없지 않아 있습니다. 지금 돌린다면 데이터의 특성에 좀 더 집중해서 맞는 알고리즘을 사용해야 겠다는 생각이 있긴 하네요.
그리고 2월 24일부터는 코로나 때문에 교육을 쉬게 되었습니다. 집에 있으면 공부를 잘 못하는 스타일이라(굳이 교육을 신청한 이유도 이 때문) 한 1주일 동안은 공부를 많이 못했습니다. 당시에는 밖에도 거의 못나갔으니…
2020. Mar
3월 초부터는 같이 교육을 듣는 형 과 책들어와써 프로젝트를 시작했습니다. 크롤링 배울 때 연습삼아 미리 짜놓았던 코드를 활용하여 알라딘 중고매장 검색 결과를 크롤링하여 알림을 보내주는 웹사이트입니다. 프로젝트 초반에는 마음이 심난해서 잘 집중을 못했었네요. 아마 이 글의 대상이 되는 7개월 동안 가장 집중이 안되던 2주가 아닐까 합니다. (같이 프로젝트 했던 형에게는 이 자리를 빌어 한 번 더 감사와 사과를…)
당시에 너무 집중을 못해서 빅데이터 커리어톡에서 뵈었던 성윤님께 다짜고짜 DM도 드렸는데 엄청 답장 잘해주셔서, 그리고 당시에 하던 프로젝트 과제 하나씩 해나가다 보니 멘붕에서 헤어나올 수 있었던 것 같습니다. 성윤님께도 이 자리를 빌어 감사를 드립니다.
프로젝트가 끝날 즈음에는 그래도 제정신을 차려서 이거저거 많이 해본거 같습니다. 특히 웹 개발에 대해서 아는 바가 하나도 없었는데 한 달 동안의 프로젝트를 통해서 플라스크나 DB기초에 대해서 뭔가를 해볼 수 있는 기회였던 것 같네요. 그리고 서비스는 애초부터 내가 만들고 싶었던 거라 지금까지도 너무 잘쓰고 있습니다. (by 소득 대비 알라딘 헤비 유저)
2020. Apr
책들어와써 프로젝트가 3월 말을 끝으로 어느 정도 마무리되었고 4월 중순에는 코로나 때문에 중단되었던 교육도 다시 재개되었습니다. 사실 최종 프로젝트를 위해서 조를 합치기도 하고, 주제를 정하느라 거의 2주 정도를 날리긴 했습니다. (교육 진행하는 쪽이랑 나름의 마찰도 좀 있었고…) 그래도 지금 와서 생각해보면 그 때 프로젝트 주제를 기획하는 데 오랜 시간을 쓰길 잘한 것 같다. (이 프로젝트 주제도 예전부터 내가 하고 싶은 걸 한 기분이 없지 않아 있지만…)
그렇게 주제는 돌고 돌아 ‘자소서 작성 도우미 프로젝트’가 되었고 주제를 정하고 나니 어느 새 5월이 되었습니다.
2020. May
거의 프로젝트에 올인한 달입니다. 다른 조보다 주제 정하는 게 늦기도 했고, 우리 조에서 쓰기로 한 KoGPT-2 같은 건 책에서는 자료를 구할 수가 없어서 구글링을 엄청했던 기억이 나네요. Finetuning 코드 작성하신 분에게 깃헙 이슈로 많이 여쭤보기도 하고 문제를 풀기 위해서 온갖 수를(?) 다 써본 것 같습니다.
(자연어 데이터가 늘 그렇듯) 가장 큰 문제는 손으로 해야하는 전처리였는데 VScode 덕분에 완벽하진 않지만 많은 부분을 정제할 수 있었습니다. 약 2주 간의 전처리 끝에 학습도 제대로 돌릴 수 있었고 학습 시 나오는 샘플 문장도 꽤 만족스럽게 나왔습니다. 학습하고 모델 연구하는 동안 나머지 팀원들이 웹 개발 열심히 해줘서 웹에다가 모델 얹는 것도 생각보다 빠르게 되었습니다.
뭔가 시간은 엄청 부족한 느낌이었는데 후다닥 하다보니 이래저래 다 된 한 달이었습니다. 개인적으로는 GPT2 등 트랜스포머 변형 모델을 (이론으로든 실전으로든) 처음 접했던 기회가 되었습니다.
2020. Jun
6월 12일까지 자잘한 오류 수정과 발표를 하고 1등이라는 결과를 얻어냈네요. 교육과정 전체가 마음에 들지는 않았습니다만 어쨌든 만족스러운 결과를 얻는 것은 항상 좋은 듯합니다.
교육이 끝나고 나서는 원격 출첵 스터디도 만들어서 열심히 공부하고 있습니다. 사실 아직까지는 코드보다는 이론 위주로 공부하고 있는데 7월 부터는 코드의 비중을 많이 늘려나갈 예정입니다. 물론 공부도 꾸준히 하고요. 그래도 강필성 교수님 자연어 강의 쭉 들으면서 자연어처리에 대한 대략적인 개념을 잡아나갈 수 있었다. 기회가 된다면 강의에서 소개해주신 논문도 좀 보고 다른 자료 참고하면서 구현도 해 볼 예정.
다음 반기는 이번 반기보다 코드를 좀 더 많이 쳤으면 한다. 그리고 책이나 인강같은 피상적인 공부가 아니라 실제적인 공부로 넘어가는 시기가 되었으면… + 구직 활동도 열심히 해야하는데 공부가 더 재미있으니 큰일이다 ㅠㅠ (자소서 도우미 만들어놓고도 자소서 쓰기가 싫기도 하고…)
Comments