알고리즘 분석 (Algorithm Analysis)

08 Jul 2020 | Data Structure

본 게시물은 문일철 교수님의 데이터 구조 및 분석을 참조하여 작성하였습니다.

Algorithm Analysis

알고리즘(Algorithm)이란 무엇일까요? 위키피디아에 나와있는 알고리즘의 정의는 다음과 같습니다.

“알고리즘은 수학과 컴퓨터 과학, 언어학 또는 관련 분야에서 어떠한 문제를 해결하기 위해 정해진 일련의 절차나 방법을 공식화한 형태로 표현한 것, 계산을 실행하기 위한 단계적 절차를 의미한다. 알고리즘은 연산, 데이터 진행 또는 자동화된 추론을 수행한다.”

즉 알고리즘은 문제를 푸는 방법에 대한 지시사항입니다. 모든 알고리즘에는 입력값과 출력값이 존재하는데요. 효율적인 알고리즘 구현을 위해서는 그에 맞는 자료구조(Data structure)가 동반되어야 합니다. 자료구조는 자료를 조직하는 방법으로 많은 프로그램이 일련의 알고리즘과 그에 맞는 자료구조를 조합하여 구현되어 있습니다. 이전에 각각의 자료구조에 대해 구현했던 삽입(Insert), 삭제(Delete), 탐색(Search)과 같은 작업 모두 알고리즘의 범주 내에 들어갑니다.

이 중에서 정렬(Sorting)은 자료구조 내에 존재하는 요소를 일정한 조건을 만족하도록 배치하는 알고리즘입니다. 버블 정렬(Bubble sort), 퀵 정렬(Quick sort)등 다양한 정렬 알고리즘이 있습니다.

Bubble Sort

이후에 이어질 이야기를 위해서 버블 정렬에 대해 알아보겠습니다. 버블 정렬은 여러 정렬 알고리즘 중에서 매우 직관적인 편에 속하는 정렬입니다. 중첩된 반복문을 통해서 모든 두 요소를 비교합니다. 오름차순으로 정렬하는 알고리즘이라면, 기준이 되는 앞쪽 숫자보다 뒷쪽 숫자가 더 클 경우에 둘의 순서를 바꾸어줍니다. 이 과정을 배열의 끝까지 반복하면 정렬이 완료됩니다. 아래는 버블 정렬을 사용하여 리스트를 오름차순으로 정렬하는 파이썬 코드입니다.

def bubbleSort(lst):
    for itr1 in range(len(lst)):
        for itr2 in range(len(lst)-1):
            if lst[itr2] > lst[itr2+1]:
                lst[itr2], lst[itr2+1] = lst[itr2+1], lst[itr2]

    return lst

리스트에 10개의 요소가 있을 때, 위 코드에서 각각의 요소를 몇 번이나 비교할까요? 먼저 itr1이 0일 때는 itr2가 0부터 8까지 9번의 비교를 되풀이하게 됩니다. itr2를 모두 마치고 나면 다시 itr1이 1로 증가하게 됩니다. itr1이 1일 때에는 0부터 7까지 8번의 비교를 되풀이합니다. 이 과정을 itr1이 9가 될 때까지 반복합니다. 각 단계마다 itr2가 순환하면서 요소를 비교하는 횟수는 $9, 8, 7, \cdots, 1$ 번입니다. 이를 모두 더하면 요소가 10개인 리스트를 버블 정렬할 때 비교 횟수를 구할 수 있습니다.

이를 요소가 $n$개인 리스트의 버블 정렬로 일반화해 봅시다. 리스트의 요소가 $n$개일 때는 각 단계마다 $n-1, n-2, \cdots , 1$번의 비교가 일어나며 이를 모두 더하면 총 비교 횟수를 구할 수 있습니다. 수식으로 나타내면 다음과 같습니다.

[(n-1)+(n-2)+\cdots+1 = \frac{n(n-1)}{2} = \frac{1}{2}n^2 - \frac{1}{2}n]

버블 정렬 알고리즘은 다른 정렬 알고리즘과 비교했을 때 매우 비효율적인 알고리즘입니다. 10,000명의 회원에 대한 회원 정보를 버블 정렬을 사용하여 오름차순으로 정렬한다면 몇 번의 반복을 수행해야 할까요? 약 $50,000,000$개의 성분을 비교해야합니다. 만약 모든 요소를 바꿔주어야 한다면 $0.00001$초가 걸리는 컴퓨터를 사용했을 때 500초, 즉 8분이 넘게 걸리게 됩니다(물론 실제로 사용되는 컴퓨터의 성능은 훨씬 좋지만 예를 들어 설명하였습니다).

Analysis

알고리즘 분석(Algorithm analysis)은 알고리즘이 필요로 하는 자원이 얼마나 되는지를 추측하는 것입니다. 이 때 자원에는 메모리, 네트워크의 대역폭(Bandwidth), 계산 시간(Computation time) 등이 모두 포함됩니다. 메모리와 네트워크의 대역폭은 더 늘릴 수 있지만 한 번 설정한 알고리즘의 계산 시간을 줄일 수는 없기 때문에 처음부터 효율적인 계산을 하는 알고리즘을 설계해야 합니다.

같은 알고리즘을 사용하더라도 입력 데이터가 어떤 자료구조의 형태로 들어오는 지에 따라서 계산 시간이 바뀌기도 합니다. 예를 들어, 이진 탐색 트리에서 평균적인 탐색 시간은 $O(\log N)$ 입니다. 그렇다면 이 $O(\log N)$이라는 표기는 무엇을 의미할까요? 이어서 빅-O 표기법에 대해 알아보겠습니다.

Big-O Notation

빅-O 표기법(Big-O Notation)이란 알고리즘이 최악의 경우를 만났을 때 걸리는 시간을 표기하는 방식입니다. 만약 알고리즘 내에 if 조건문이 있으면 이 조건을 모두 만족하여 조건문 이하의 코드를 모두 실행한다고 가정하게 됩니다. 버블 정렬의 경우 if 조건문을 모두 실행한다면 두 요소를 바꾸는 작업을 $\frac{N(N-1)}{2}$ 번 실행하게 됩니다.

def bubbleSort(lst):
    for itr1 in range(len(lst)): #line1
        for itr2 in range(len(lst)-1): #line2
            if lst[itr2] > lst[itr2+1]: #line3
                lst[itr2], lst[itr2+1] = lst[itr2+1], lst[itr2] #line4

    return lst #line5

버블 정렬의 함수 내에서 최악의 경우에 각 코드 Line을 몇 번이나 실행하는지 헤아려 보겠습니다. 먼저 Line1은 몇 번이나 반복될까요? itr1이 $0$ 부터 $N-1$ 까지 반복하니 $N$ 번 반복하게 됩니다. Line2는 조건문과 상관없이 $(N-1) + (N-2) + \cdots + 1 = \frac{N(N-1)}{2}$ 번 반복합니다. Line3,4는 조건이 안맞을 경우에는 실행하지 않지만 최악의 경우, 즉 모든 if문을 실행하는 경우를 생각하는 것이므로 두 줄 모두 $\frac{N(N-1)}{2}$ 실행됩니다. 마지막 Line5는 함수를 마칠 때 한 번 사용되므로 $1$번 실행하게 됩니다. 이를 모두 합한 $\frac{3}{2}N^2 - \frac{1}{2}N + 1$이 버블 정렬의 반복 연산 횟수가 됩니다.

이제 빅-$O$ 표기법에 대해 본격적으로 알아보겠습니다. 빅-O 표기법을 나타내는 방법은 다음과 같습니다. 우선 테스트할 알고리즘의 연산 횟수를 $f(N)$이라고 합니다. 그기고 그에 맞는 빅-$O$ 표기법이 $O(g(N))$으로 나타난다고 해보겠습니다. 이 때 $N \geq n_0$ 인 $N$ 에 대하여 $f(N) \leq c \cdot g(N)$ 을 만족시키는 양의 상수 $c, n_0$ 가 있어야 합니다.

말로 하면 어려우니 버블 정렬의 예를 들어 설명해보겠습니다. 위에서 구한 버블 정렬의 연산 반복 수 $f(N) = \frac{3}{2}N^2 - \frac{1}{2}N + 1$이었습니다. 이에 해당하는 $g(N) = N^2$으로 가정해보겠습니다. $c$ 에 적당한 값인 $5/2$ 를 대입하고 $f(N) \leq c \cdot g(N)$ 식을 정리하면 다음과 같은 식이 됩니다. ( $c$ 에 다른 수를 대입해도 됩니다.)

[f(N) \leq c \cdot g(N)
\frac{3}{2}N^2 - \frac{1}{2}N + 1 \leq \frac{5}{2} \cdot N^2
N^2 + \frac{1}{2}N -1 \geq 0]

마지막 식을 그래프로 나타내면 아래와 같이 나타낼 수 있습니다. 아래와 같은 포물선 그래프에서 오른쪽 근은 약 $0.781$ 입니다. 따라서 $n_0 = 0.781$ 이라고 하면 $N \geq n_0$ 인 모든 $N$ 에 대하여 $f(N) \leq c \cdot g(N)$을 만족하므로 $O(N^2)$ 는 버블 정렬 알고리즘을 빅-$O$ 표기법으로 잘 나타낸 것이라 할 수 있습니다.

bubblesort_graph

이미지 출처 : wolframalpha.com

$g(N)$ 의 차수가 더 작아지면 어떻게 될까요? $g(N) = N$ 이라고 가정하면 $f(N) \leq c \cdot g(N)$을 다음과 같이 정리할 수 있습니다.

[\frac{3}{2}N^2 - \frac{1}{2}N + 1 \leq c \cdot N
-\frac{3}{2}N^2 + (c-\frac{1}{2})N -1 \geq 0]

이 식은 위로 볼록한 포물선이 되므로 언젠가는 0보다 작아지게 됩니다. 이 경우에는 $N \geq n_0$ 인 모든 $N$ 에 대해 $f(N) \leq c \cdot g(N)$을 만족하는 $n_0$ 를 찾을 수 없습니다. 따라서 $O(N)$ 은 버블 정렬의 빅-$O$ 표기법으로 적절하지 않습니다.

반대로 $g(N)$ 의 차수가 더 커지면 어떻게 될까요? $g(N) = N^3$ 이라고 하면 $f(N) \leq c \cdot g(N)$ 을 다음과 같이 정리할 수 있습니다.

[\frac{3}{2}N^2 - \frac{1}{2}N + 1 \leq c \cdot N^3
c \cdot N^3-\frac{3}{2}N^2 + \frac{1}{2}N -1 \geq 0]

$c$ 는 임의의 양의 상수이므로 마지막 식은 우상향 하는 삼차함수의 식을 그리게 된다. $c=1$ 로 가정했을 때의 그래프는 다음과 같습니다. 아래와 같은 그래프에서 근은 약 $1.584$ 입니다. $n_0 = 1.584$ 이라고 하면 $N \geq n_0$ 인 모든 $N$ 에 대하여 $f(N) \leq c \cdot g(N)$ 을 만족합니다. 따라서 $O(N^3)$ 는 버블 정렬 알고리즘을 빅-$O$ 표기법으로 잘 나타낸 것이라 할 수 있습니다.

bubblesort_graph2

이미지 출처 : wolframalpha.com

결론적으로 $g(N)$은 $f(N)$ 의 상한선(Upper bound)이 되는 함수입니다. 그렇다면 특정 $f(N)$ 에 대해 $g(N)$ 의 개수는 매우 많아질 수 있습니다. $N^k$ 와 같은 다항함수 말고도 $k^N$ 과 같은 지수함수까지 있기 때문입니다. 이 많은 $g(N)$ 중 가장 작은 경우, 즉 Tight한 상한선의 경우가 가장 좋은 답이며 일반적으로도 이 경우가 사용됩니다. 즉 버블 정렬의 빅-$O$ 표기법으로 가장 올바른 것은 $O(N^2)$ 가 됩니다.

Growth rate

아래는 여러 $g(N)$에 대한 성장률(Growth rate)을 그래프로 나타낸 것입니다.

이미지 출처 : wikipedia - Time Complexity

그래프에서도 볼 수 있듯 각 성장률 순서(Growth rate order)는 다음과 같이 나타낼 수 있습니다.

[N! > C^N > N^k > N^2 > N \log N > N > \log N > C \qquad \text{if, } \quad C \geq 2 , k > 2]

여러 알고리즘이 결합된 형태의 빅-$O$ 표기법은 아래와 같습니다. 시간 알고리즘이 $f_1(N) = O(g(N)), f_2(N) = O(h(N))$ 와 같은 두 알고리즘에 대하여 다음과 같은 규칙을 만족합니다.

[f_1(N) + f_2(N) = \max(O(g(N)),O(h(N)))
f_1(N) \cdot f_2(N) = O(g(N))*O(h(N))]

성장률 순서와 결합 규칙을 알면 빅-O 표기법을 쉽게 구할 수 있습니다. 덧셈 결합 규칙을 적용하여 성장률 순서에서 복잡한 순서대로 정렬했을 때, 가장 앞쪽 순서에 위치한 항만 남기면 그것이 $g(N)$이 됩니다. 아래는 $f(N)$을 빅-$O$ 표기법으로 나타내는 몇 가지 예시입니다.

$f(3N+2 \cdot N^3+3) \Rightarrow O(N^3)$

$f(3N\log N + \log N + 1024) \Rightarrow O(N\log N)$

$f(3N^3 + 2^N) \Rightarrow O(2^N)$

$f(100001) \Rightarrow O(1)$

Complexity in List, Stack, Queue

다음은 Array(List), Stack, Queue 자료구조에 대하여 삽입(Push, Enqueue), 삭제(Pop, Dequeue) 및 탐색을 빅-$O$ 표기법으로 나타낸 표입니다.

	Array(List)	Stack	Queue
Push	X	$O(1)$	X
Pop	X	$O(1)$	X
Enqueue	X	X	$O(1)$
Dequeue	X	X	$O(1)$
Search	$O(N)$	X	X

다음은 연결된 리스트(Linked List), 평균적인 이진 탐색 트리(Binary search tree), 이진 탐색 트리의 가장 좋지 않은 경우에 대해서 탐색, 삭제, 트래버스(Traverse)를 빅-$O$ 표기법으로 나타낸 표입니다.

	Linked List	Binary Search Tree in Average	Binary Search Tree in Worst Case
Search	$O(n)$	$O(\log n)$	$O(n)$
Insert after search	$O(1)$	$O(1)$	$O(1)$
Delete after search	$O(1)$	$O(1)$	$O(1)$
Traverse	$O(n)$	$O(n)$	$O(n)$

빅-$O$ 표기법 이외에도 빅-$\Theta$ 표기법 $\Theta(N)$, 스몰-o 표기법, 스몰- $\theta$ 표기법 등이 있습니다. 하지만 가장 중요하게 고려되는 사항은 역시 최악의 경우입니다. 이것만 줄이면 다른 경우는 쉽게 커버할 수 있기 때문이지요. 그러므로 최악의 경우에 대해 시간 복잡도를 구하는 빅-$O$ 표기법이 일반적으로 가장 많이 사용됩니다.

Comment Read more

2020년 상반기 회고

06 Jul 2020 | Daily

2020 - 1

벌써 반 년이 지났습니다. 뭇 프로그래머들이 그러하듯 그동안에 한 것들을 짧게나마 회고 식으로 적어보려 합니다. 반기 회고지만 코딩을 작년 11월 중순부터 시작했기 때문에, 11월 중순부터 연말까지의 기간을 포함하여 약 7개월 동안의 일을 (의식의 흐름대로) 적습니다.

2019. Dec

11월 25일에 교육을 시작했고 2주 전부터 예습을 시작했으니, 아마 처음으로 `print("Hello python!")` 을 한 것은 11월 11일 전후가 되겠습니다. 교육 시작 전까지는 인프런에 있는 최성철 교수님의 강의 를 들으며 파이썬 기초 지식을 공부하였습니다. 야구게임 문제를 푸느라 이틀 머리를 싸맸던 기억이 나네요. (지금이라면 금방 풀텐데 ㅠㅠ)

작년 11월 20일에는 충무로에서 빅데이터 커리어톡 을 들었습니다. 동국대에서 진행하는 프로그램 수료자 + 추가 인원을 모집하여 빅데이터 현직자의 이야기를 들을 수 있었던 자리였습니다. 마이뮤직테이스트 그로스팀 리드 김명수님, 하이퍼커넥트 ML엔지니어 서석준님, 쏘카 ML엔지니어 변성윤님이 연사로 서주셨고 데이터 사이언스에 대한 이런저런 이야기를 들을 수 있었습니다. 다만, 당시에는 데이터에 대한 지식이 너무 부족해서 일단 받아적기만 했던 게 아쉽네요. 지금 비슷한 자리가 있다면 오히려 그 때보다 훨씬 더 좋은 자리가 될 것 같다는 생각이 듭니다.

그리고 25일 교육을 시작했습니다. 11월 말부터 12월 초까지 HTML, CSS, JS, Java 등을 배웠습니다. 너무 잡다하게(?) 배웠던지라 커리큘럼이 마음에 들지는 않았지만 코딩에 대해서 아는 것도 없었고 열심히 듣기만 했던 기억이 있네요.

12월 중순부터 약 4주간 R을 배웠습니다. 이것도 지금 생각해보면 ‘그 시간에 파이썬이나 좀 더 할 걸’이라는 생각이 들기는 합니다. 지금와서 생각해보니 교육의 커리큘럼이 더욱 마음에 들지 않네요. 그래도 R 수업을 통해서 전반적인 기초 통계학 내용이나 다양한 분석을 해볼 수 있었던 것은 좋았습니다. 통계학을 좀 더 공부해봐야 겠다는 생각이 들기도 했고요.

따라하며 배우는 데이터 과학 책을 보며 공부했던 것이 많은 도움이 되었습니다. 교육에서도 제대로 알려주지 않는 p-value, 신뢰구간에 대한 정의를 알 수 있었습니다. 그리고 어떤 데이터가 주어졌을 때 어떤 분석방법을 사용해야 하는 지도 자세하게 나와있어 도움이 되었고요.

2020. Jan

돌고돌아 1월 중순에 R수업이 끝나고 파이썬 기초를 시작했습니다. 시간이 너무 짧았기 때문에 디테일하게 공부하지는 못했습니다. 다만 교육 시작전에 2주 동안 공부했던 내용을 복습하기도 하는 시간이었습니다. 이맘때 쯤 학원 내에서도 파이썬 스터디를 꾸려 기본적인 알고리즘 문제를 풀기도 했고요. 그리고 당시 데이터 분석의 기본이 되는 Numpy, Pandas 등에 대해서도 배웠습니다. 이것도 너무 짧게 배운 것이 좀 아쉽네요. 당시에 Numpy를 좀 더 열심히 했으면 모델의 코드를 좀 더 빨리 볼 수 있지 않을까하는 생각도 듭니다. (이제라도 열심히… !!)

그리고 설날에 쉬는 동안 이 깃허브 블로그를 만들었습니다. 당시에 NLP를 배우지는 않았습니다만 애초부터 관심이 있기도 했고 ML에 대해서도 정말 정리가 잘 되어있는 (그리고 저와 이름이 같은 분이 하시는) Ratsgo님의 블로그 를 (메일로 허락맡은 뒤에) 포크하여 만들게 되었습니다.

개인적으로 뭘 쓰면서 해야 정리가 되는 스타일이라 만들고 부터 지금까지 뭘 공부하면 대강대강 정리해서 적고 있습니다. 지금은 독자를 상정하지 않고 저만 보기 위해서 써놓는 글이라 매우 불친절하지만 언젠가 한 번 대대적인 고쳐쓰기를 해야겠다는 마음을 가지고 있네요.

2020. Feb

2월부터는 교육에서는 파이썬 머신러닝 완벽 가이드 책으로 진도를 나갔습니다. 요때 당시에 엄청 열심히 공부했던 기억이 있네요. 맨날 ICT COC가서 밤새서 핸즈온 머신러닝 보고 정리하고 예제코드 쳐보고 하면서 열심히 했던 것 같습니다. 그리고 교육에서도 학습조장(?)을 맡게 돼서 저도 헷갈리는 내용을 설명해줘야 했기 때문에 음청 빡세게 공부했네요. 그래도 어려운 내용은 어려웠고 지금 생각해보면 오개념도 꽤나 있었던 것 같습니다. 그리고 SVM처럼 독학이 어려웠던 부분은 대강의 감만 익히고 넘어갔던 것 같습니다.(지금도 커널에 대한 수학적 트릭은 잘 모르겠습니다 ㅠㅠ)

요 당시에는 캐글 데이터도 많이 만져보고 프로젝트도 있어서 이런 저런 알고리즘을 돌려보는 기회가 되었습니다. 다만 당시에는 종류에 집착해서 너무 막 돌려본 감이 없지 않아 있습니다. 지금 돌린다면 데이터의 특성에 좀 더 집중해서 맞는 알고리즘을 사용해야 겠다는 생각이 있긴 하네요.

그리고 2월 24일부터는 코로나 때문에 교육을 쉬게 되었습니다. 집에 있으면 공부를 잘 못하는 스타일이라(굳이 교육을 신청한 이유도 이 때문) 한 1주일 동안은 공부를 많이 못했습니다. 당시에는 밖에도 거의 못나갔으니…

2020. Mar

3월 초부터는 같이 교육을 듣는 형 과 책들어와써 프로젝트를 시작했습니다. 크롤링 배울 때 연습삼아 미리 짜놓았던 코드를 활용하여 알라딘 중고매장 검색 결과를 크롤링하여 알림을 보내주는 웹사이트입니다. 프로젝트 초반에는 마음이 심난해서 잘 집중을 못했었네요. 아마 이 글의 대상이 되는 7개월 동안 가장 집중이 안되던 2주가 아닐까 합니다. (같이 프로젝트 했던 형에게는 이 자리를 빌어 한 번 더 감사와 사과를…)

당시에 너무 집중을 못해서 빅데이터 커리어톡에서 뵈었던 성윤님께 다짜고짜 DM도 드렸는데 엄청 답장 잘해주셔서, 그리고 당시에 하던 프로젝트 과제 하나씩 해나가다 보니 멘붕에서 헤어나올 수 있었던 것 같습니다. 성윤님께도 이 자리를 빌어 감사를 드립니다.

프로젝트가 끝날 즈음에는 그래도 제정신을 차려서 이거저거 많이 해본거 같습니다. 특히 웹 개발에 대해서 아는 바가 하나도 없었는데 한 달 동안의 프로젝트를 통해서 플라스크나 DB기초에 대해서 뭔가를 해볼 수 있는 기회였던 것 같네요. 그리고 서비스는 애초부터 내가 만들고 싶었던 거라 지금까지도 너무 잘쓰고 있습니다. (by 소득 대비 알라딘 헤비 유저)

2020. Apr

책들어와써 프로젝트가 3월 말을 끝으로 어느 정도 마무리되었고 4월 중순에는 코로나 때문에 중단되었던 교육도 다시 재개되었습니다. 사실 최종 프로젝트를 위해서 조를 합치기도 하고, 주제를 정하느라 거의 2주 정도를 날리긴 했습니다. (교육 진행하는 쪽이랑 나름의 마찰도 좀 있었고…) 그래도 지금 와서 생각해보면 그 때 프로젝트 주제를 기획하는 데 오랜 시간을 쓰길 잘한 것 같다. (이 프로젝트 주제도 예전부터 내가 하고 싶은 걸 한 기분이 없지 않아 있지만…)

그렇게 주제는 돌고 돌아 ‘자소서 작성 도우미 프로젝트’가 되었고 주제를 정하고 나니 어느 새 5월이 되었습니다.

2020. May

거의 프로젝트에 올인한 달입니다. 다른 조보다 주제 정하는 게 늦기도 했고, 우리 조에서 쓰기로 한 KoGPT-2 같은 건 책에서는 자료를 구할 수가 없어서 구글링을 엄청했던 기억이 나네요. Finetuning 코드 작성하신 분에게 깃헙 이슈로 많이 여쭤보기도 하고 문제를 풀기 위해서 온갖 수를(?) 다 써본 것 같습니다.

(자연어 데이터가 늘 그렇듯) 가장 큰 문제는 손으로 해야하는 전처리였는데 VScode 덕분에 완벽하진 않지만 많은 부분을 정제할 수 있었습니다. 약 2주 간의 전처리 끝에 학습도 제대로 돌릴 수 있었고 학습 시 나오는 샘플 문장도 꽤 만족스럽게 나왔습니다. 학습하고 모델 연구하는 동안 나머지 팀원들이 웹 개발 열심히 해줘서 웹에다가 모델 얹는 것도 생각보다 빠르게 되었습니다.

뭔가 시간은 엄청 부족한 느낌이었는데 후다닥 하다보니 이래저래 다 된 한 달이었습니다. 개인적으로는 GPT2 등 트랜스포머 변형 모델을 (이론으로든 실전으로든) 처음 접했던 기회가 되었습니다.

2020. Jun

6월 12일까지 자잘한 오류 수정과 발표를 하고 1등이라는 결과를 얻어냈네요. 교육과정 전체가 마음에 들지는 않았습니다만 어쨌든 만족스러운 결과를 얻는 것은 항상 좋은 듯합니다.

교육이 끝나고 나서는 원격 출첵 스터디도 만들어서 열심히 공부하고 있습니다. 사실 아직까지는 코드보다는 이론 위주로 공부하고 있는데 7월 부터는 코드의 비중을 많이 늘려나갈 예정입니다. 물론 공부도 꾸준히 하고요. 그래도 강필성 교수님 자연어 강의 쭉 들으면서 자연어처리에 대한 대략적인 개념을 잡아나갈 수 있었다. 기회가 된다면 강의에서 소개해주신 논문도 좀 보고 다른 자료 참고하면서 구현도 해 볼 예정.

다음 반기는 이번 반기보다 코드를 좀 더 많이 쳤으면 한다. 그리고 책이나 인강같은 피상적인 공부가 아니라 실제적인 공부로 넘어가는 시기가 되었으면… + 구직 활동도 열심히 해야하는데 공부가 더 재미있으니 큰일이다 ㅠㅠ (자소서 도우미 만들어놓고도 자소서 쓰기가 싫기도 하고…)

Comment Read more

이진 탐색 트리 (Binary Search Tree)

06 Jul 2020 | Data Structure

본 게시물은 문일철 교수님의 데이터 구조 및 분석을 참조하여 작성하였습니다.

이진 탐색 트리 (Binary Search Tree)

이진 탐색 트리(Binary Search Tree, BST) 는 차수(Degree)가 2인 트리입니다. 연결된 리스트(Linked List)가 해결해주지 못하는 탐색(Search)을 최적화하기 위해 고안된 자료구조입니다. 이런 특성 때문에 이름에도 탐색(Search)이 붙었습니다. 이진 탐색 트리가 데이터를 빠르게 탐색할 수 있는 비결은 무엇일까요? 해답은 이진 탐색 트리가 데이터를 보관하는 방법에 대한 특별한 규칙(Rule)에 있습니다. 아래는 한 이진 탐색 트리의 예시입니다.

이미지 출처 : 위키피디아 - 이진 탐색 트리

위 트리에는 어떤 규칙이 있는 것일까요? 루트와 그 자식 노드에 해당하는 두 노드를 봅시다. 루트의 값은 8이며 왼쪽 자식 노드의 값은 3, 오른쪽 자식 노드의 값은 10입니다. 루트를 기준으로 더 작은 값은 왼쪽 자식 노드로, 더 큰 값은 오른쪽 자식 노드로 배치된 것을 볼 수 있습니다. 다음에는 아래로 내려가 값이 3인 노드와 그 자식 노드를 봅시다. 이 세 노드도 마찬가지로 3보다 작은 값인 1은 왼쪽 자식 노드로, 6은 오른쪽 자식 노드로 배치된 것을 볼 수 있습니다.

이진 탐색 트리의 모든 값은 이 규칙을 따라 배치됩니다. 부모 노드보다 값이 큰 노드는 오른쪽에, 값이 작은 노드는 왼쪽에 배치됩니다. 이런 규칙이 있기 때문에 더욱 빠르게 찾을 수 있습니다. 연결된 리스트에서의 탐색 과정과 비교해 보겠습니다. $8, 3, 10, 1, 6, 14, 4, 7, 13$ 이 차례대로 저장된 연결된 리스트와 이진 탐색 트리가 있다고 해봅시다. 연결된 리스트에서 $13$ 을 찾기 위해서는 모든 요소와 비교를 해야 하므로 총 9번의 Operation을 거쳐야 합니다. 하지만 이진 탐색 트리에서는 $8, 10, 14, 13$ 만 비교하면 되니 4번의 Operation 만으로 원하는 탐색을 할 수 있습니다. 이진 탐색 트리의 탐색에 대해서는 아래에서 더 자세히 살펴보겠습니다.

Structure

연결된 리스트의 노드 하나에는 총 2개의 레퍼런스가 있었습니다. 하나는 값을 가리키는 레퍼런스이고 나머지 하나는 다음 노드를 가리키는 레퍼런스로, 넥스트(Next)라고 불렀습니다. 이진 탐색 트리는 가리켜야 하는 노드가 2개이기 때문에 총 3개의 레퍼런스를 가지고 있습니다. 그 중 왼쪽 자식 노드를 가리키는 레퍼런스를 LHS(Left Hand Side)라고 하고, 오른쪽 자식 노드를 가리키는 레퍼런스는 RHS(Right Hand Side)라고 합니다.

연결된 리스트가 헤드를 통해서만 다른 노드에 접근할 수 있었던 것처럼 트리 역시 첫 번째에 해당하는 루트를 통해서만 다른 노드에 접근할 수 있습니다. 아래는 이진 탐색 트리의 노드를 파이썬 코드로 구현한 것입니다.

class TreeNode:
    nodeLHS = None
    nodeRHS = None
    nodeParent = None
    value = None

    def __init__(self, value, nodeParent):
        self.value = value
        self.nodeParent = nodeParent
	
    """각 레퍼런스 설정하기"""
    def getLHS(self):
        return self.nodeLHS
    def getRHS(self):
        return self.nodeRHS
    def getParent(self):
        return self.nodeParent
    def getValue(self):
        return self.value
    def setLHS(self):
        self.nodeLHS = nodeLHS
    def setRHS(self):
        self.nodeRHS = nodeRHS
    def setParent(self):
        self.nodeParent = Parent
    def setValue(self):
        self.value = value

아래는 이진 탐색 트리의 루트와 이진 탐색 트리에서 가능한 여러 Operation을 파이썬 코드로 적어놓은 것입니다.

from bst import TreeNode

class BinarySearchTree:
    root = None

    def __init__(self):
        pass
    def insert(self, value, node=None):
        "..."
    def search(self, value, node=None):
        "..."
    def delete(self, value, node=None):
        "..."
    def findMax(self, node=None):
        "..."
    def findMin(self, node=None):
        "..."
    def traverseLevelOrder(self):
        "..."
    def traverseInOrder(self, node=None):
        "..."
    def traversePreOrder(self, node=None):
        "..."
    def traversePostOrder(self, node=None):
        "..."

이진 탐색 트리에서의 탐색

이진 탐색 트리 속에 우리가 원하는 값이 있는지 없는지 탐색(Search)하는 과정을 알아봅시다. 이진 탐색 트리에서 데이터를 저장할 때 세웠던 규칙이 빛을 발할 때가 되었습니다. 탐색하려는 값이 우리가 보고 있는 노드의 값보다 클 경우에는 RHS를 따라 이동하고, 작을 경우에는 LHS를 따라 이동합니다. 이전처럼 우리가 원하는 값을 발견할 경우에는 True를 반환하고 그렇지 않은 경우에는 다시 같은 과정을 재귀적으로(Recursive) 수행합니다. 재귀적으로 아래쪽으로 내려가다가 자식 노드가 없을 경우, 즉 리프 노드의 값이 우리가 원하는 값이 아닐 경우에는 False를 반환하고 함수를 끝마칩니다.

위에서 사용한 예시를 다시 가져와 보겠습니다.

이미지 출처 : 위키피디아 - 이진 탐색 트리

위와 같은 이진 탐색 트리에서 $13$ 을 찾기 위해서는 어떻게 해야할까요? 가장 먼저 할 수 있는 것은 루트 노드로 접근하여 값을 비교하는 것입니다. $13$ 은 $8$ 보다 크므로 RHS를 따라 이동합니다. 다음 노드의 값은 $10$ 입니다. $13$ 은 $10$ 보다도 크기 때문에 또 RHS를 따라 이동합니다. 다음 노드의 값은 $14$ 입니다. $13$ 은 $14$ 보다 작기 때문에 LHS를 따라 이동합니다. 그 다음 노드의 값이 우리가 찾던 $13$ 이므로 True를 반환하고 함수를 마칩니다.

트리에 없는 값을 탐색하는 과정도 보겠습니다. $5$ 는 어떻게 탐색할 수 있을까요? 나머지 규칙은 위와 같습니다. 루트로 접근하여 $5$ 가 $8$ 보다 작으므로 LHS를 따라 이동, $3$ 보다는 크므로 RHS를 따라 이동, $6$ 보다는 작으므로 LHS를 따라 이동합니다. 다음 노드의 값은 $4$ 입니다. $5$ 가 $4$ 보다 크기 때문에 RHS를 따라 이동해야 하는데 더 이상 이동할 노드가 없습니다. 그러므로 False를 반환하고 함수를 마치게 됩니다.

아래의 코드는 이진 탐색 트리에서의 탐색을 파이썬 코드로 구현한 것입니다.

def search(self, value, node=None):
    """
    같은 값을 발견하면 True를 반환하도록 합니다.
    """
    if node is None:
        node = self.root
    if value == node.getValue():
        return True
    """
    그렇지 않은 경우 크기비교를 하며 RHS, LHS로 나아가게 되고
    일치하는 값을 찾지 못하고 빈 노드를 만나면 False를 반환합니다.
    """
    if value > node.getValue():
        if node.getRHS() is None:
            return False
        else:
            return self.search(value, node.getRHS())
    if value < node.getValue():
        if node.getLHS() is None:
            return False
        else:
            return self.search(value, node.getLHS())

이진 탐색 트리에서의 삽입

이진 탐색 트리에서의 삽입(Insert)하는 과정에 대해 알아봅시다. 삽입은 탐색과 매우 유사합니다. 삽입을 규칙에 맞게 하기 때문에 탐색이 쉬운 것이니까요.

삽입 역시 삽입 하려는 값이 해당 노드보다 작으면 LHS를 따라 이동하고, 크면 RHS를 따라 이동하는 과정을 재귀적으로 반복합니다. 탐색에서 원하는 값이 발견되면 True를 반환하였지만, 삽입은 원하는 값이 있으면 아무것도 반환하지 않고 그대로 함수를 마칩니다. 그리고 탐색에서는 더 이상 내려갈 자식 노드가 없으면 False를 반환했지만, 삽입에서는 그 자리에 우리가 원하는 값이 담긴 노드를 배치하고 함수를 마치게 됩니다. 삽입도 같은 예시를 통해 알아봅시다.

이미지 출처 : 위키피디아 - 이진 탐색 트리

탐색 과정에서 트리에 없었던 $5$ 를 삽입해 보겠습니다. 탐색과 같은 과정을 거쳐 $8, 3, 6, 4$ 를 따라 이동합니다. 탐색은 $4$ 이하에 RHS를 따라 이동할 노드가 없었기 때문에 False를 반환했지만 삽입은 그 자리에 $5$ 를 삽입하고 함수를 마치게 됩니다.

아래의 코드는 이진 탐색 트리에서의 삽입을 파이썬 코드로 구현한 것입니다.

def insert(self, value, node=None):
    """
    재귀 탈출 조건문 설정하기
    노드가 채워져 있지 않을 경우에는 값을 할당하도록 되어있습니다.
    """
    if node is None:
        node = self.root
    if self.root is None:
        self.root = TreeNode(value, None)
        return
    """
    값이 같을 경우 그대로 반환
    값이 큰 경우 RHS를 따라 이동하여 재귀를 통해 같은 함수를 실행
    값이 작은 경우 LHS를 따라 이동하여 재귀를 통해 같은 함수를 실행
    둘 모두 값이 존재하지 않을 경우에는 해당 값을 할당하도록 합니다.
    """
    if value == node.getValue():
        return
    if value > node.getValue():
        if node.getRHS() is None:
            node.setRHS(TreeNode(value, node))
        else:
            self.insert(value, node.getRHS())
    if value < node.getValue():
        if node.getLHS() is None:
            node.setLHS(TreeNode(value, node))
        else:
            self.insert(value, node.getLHS())
    return

이진 탐색 트리에서의 삭제

다음은 삭제를 알아볼 차례입니다. 이진 탐색 트리에서의 삭제는 이전의 자료 구조보다 훨씬 더 까다롭습니다. 이진 탐색 트리에서 노드를 삭제하는 경우의 수는 3개이므로 각각을 나누어 생각해야 합니다.

첫 번째는 자식 노드를 갖지 않는, 즉 리프 노드의 값을 삭제하는 경우입니다. 가장 간단한 케이스이기도 합니다. 이 때는 해당 노드의 부모 노드가 가리키는 레퍼런스를 제거함으로써 값을 삭제할 수 있습니다. 아래 그림을 봅시다.

이미지 출처 : javatpoint.com

위 그림은 85를 삭제하는 과정을 이미지로 나타낸 것입니다. 이 노드를 가리키고 있는 부모 노드의 레퍼런스를 제거하면 아무 노드의 가리킴도 받지 않는 85가 있는 노드는 가비지 컬렉터(Garbage collector)에 의해서 삭제됩니다.

두 번째는 하나의 자식 노드를 갖는 노드의 값을 삭제하는 경우입니다. 이 케이스는 연결된 리스트에서 요소를 삭제하는 경우와도 유사합니다. 방법은 삭제하려는 값이 담긴 노드를 가리키는 레퍼런스를 그 자식 노드를 가리키도록 하게 됩니다. 아래 그림을 보겠습니다.

이미지 출처 : javatpoint.com

위 그림은 12를 삭제하는 과정을 이미지로 나타낸 것입니다. 이 노드를 가리키고 있는 레퍼런스를 12가 있는 자식 노드인 6을 가리키도록 합니다. 이전 케이스와 같이 아무 레퍼런스의 가리킴도 받지 못하게 된 12는 가비지 컬렉터에 의해서 사라지게 됩니다.

마지막은 삭제하려는 값이 있는 노드가 두 개의 자식 노드를 갖는 경우입니다. 가장 까다로운 경우입니다. 기본적인 아이디어는 기존에 트리에 존재하는 다른 값으로 대체하여 넣어준 뒤에 중복되는 값을 삭제하는 것입니다. 아래 그림을 보겠습니다.

tree_del3

이미지 출처 : 데이터 구조 및 분석 수업자료

이번 케이스는 2가지 경우의 수가 있습니다. 위 그림은 맨 아래에 있는 이진 탐색 트리에서 $3$ 을 제거할 때의 2가지 경우의 수를 나타낸 것입니다.

왼쪽 경로는 $3$ 대신 $4$ 를 복사해 넣은 후 $4$ 에 해당하는 리프 노드를 삭제하는 과정으로 이루어져 있습니다. 리프 노드는 첫 번째로 알아보았던 그리고 오른쪽 경로는 $3$ 대신 $2$ 를 복사해 넣은 후 원래 $2$ 가 있던 노드를 삭제하는 과정으로 이루어져 있지요. 이렇게 새롭게 생성된 이진 탐색 트리는 기존의 규칙을 깨뜨리지 않습니다. 왼쪽 경로에서 $4$ , 오른쪽 경로에서 $2$ 라는 값은 어떻게 선택되는 것일까요?

일단 아무 값이나 선택하는 것은 안됩니다. 예를 들어, $3$ 이 있던 자리에 $0$ 을 넣고 원래 $0$ 이 있는 노드를 삭제하게 되면 트리의 규칙이 깨져버리기 때문입니다. 선택하는 논리는 비교적 간단합니다. $3$ 보다 왼쪽에 있는 하위 트리(Sub tree)에서는 가장 큰 값을, 오른쪽에 있는 하위 트리에서는 가장 작은 값을 선택하면 됩니다.

왼쪽에 있는 하위 트리에서 가장 큰 값이라도 오른쪽 하위 트리의 모든 값보다는 작으므로 이 값을 삭제하려는 노드에 중복시켜 넣어준 후 원래 노드를 삭제시키면 트리의 규칙을 어기지 않습니다. 오른쪽에 있는 하위 트리에서 가장 작은 값 역시 왼쪽 하위 트리에 있는 모든 값보다는 크기 때문에 삭제하려는 노드에 중복해준 후 원래 값이 있는 노드를 삭제시켜도 트리의 규칙을 어기지 않음을 알 수 있습니다.

트리에서 이런 값을 찾는 방법 역시 간단합니다. 먼저 왼쪽 하위 트리의 최댓값을 찾는 경우 (그림에서 오른쪽 경로) 부터 생각해봅시다. 이 경우는 삭제하려는 값이 있는 노드의 LHS를 따라 한 번 내려간 뒤, 이후부터는 항상 RHS만을 따라갑니다. 만약 더 이상 RHS가 없는 노드가 있다면 그 노드의 값이 중복해줄 값으로 선택됩니다. 위의 예시에서도 $3$ 이 있는 노드의 LHS를 따라 한 번 내려가면 $2$ 가 있는 노드가 됩니다. 다음부터는 RHS 만을 따라 내려가야 하지만 해당 노드에서 RHS가 없으므로 해당 노드의 값인 $2$ 가 삭제할 값을 대체하는 값이 됩니다. 다음으로 오른쪽 하위 트리의 최솟값을 찾는 경우 (그림에서 왼쪽 경로) 를 생각해봅시다. 위 그림에서 왼쪽 방향에 있는 3을 4로 대체한 것은 첫 번째 방법을 따른 것이고, 오른쪽 방향에 있는 3을 2로 대체한 것은 두 번째 방향을 따른 것이다. 이 때는 반대로 삭제하려는 값이 있는 노드의 RHS를 따라 한 번 내려간 뒤, 이후부터는 항상 LHS만을 따라갑니다. 그리고 더 이상 LHS가 없는 노드가 있다면 그 노드의 값이 중복해줄 값으로 선택됩니다. 위의 예시에서도 $3$ 이 있는 노드의 RHS를 따라 한 번 내려가면 $5$ 가 있는 노드가 됩니다. 다음부터는 LHS 만을 따라 내려가야 하므로 한 번 더 이동한 노드의 값은 $4$ 입니다. 다음에 또 LHS를 따라 이동해야 하지만 해당 노드에서 LHS가 없으므로 해당 노드의 값인 $4$ 가 삭제할 값을 대체하는 값이 됩니다.

이렇게 복제된 값을 담고 있는 노드는 LHS나 RHS 중 하나의 레퍼런스가 없는 노드이므로 위에서 나왔던 리프 노드를 삭제하는 방법이나, 자식 노드가 하나인 노드를 삭제하는 방법을 사용하여 처리가 가능합니다. 아래는 모든 삭제 과정을 파이썬 코드로 구현한 것입니다.

def delete(self, value, node=None):
    if node is None:
        node = self.root
    """
    삭제하려는 값을 찾아가는 과정
    """
    if node.getValue() < value:
        return self.delete(value, node.getRHS())
    if node.getValue() > value:
        return self.delete(value, node.getLHS())
    """
    삭제하려는 값이 있는 노드를 만났을 때
    """
    if node.getValue() == value:
        """
        2개의 자식을 갖는 노드의 값 삭제하기
        여기서는 2가지 방법 중
        RHS로 이동 후 RHS에서 가장 왼쪽 값(최솟값)을
        찾아 대체하는 방법을 사용하였습니다.
        """
        if node.getLHS() is not None and node.getRHS() is not None:
            nodeMin = self.findMin(node.getRHS())
            node.setValue(nodeMin.getValue())
            self.delete(nodeMin.getValue(), nodeRHS())
            return
        parent = node.getParent()
        """
        자식 노드를 1개 갖는 노드의 값을 삭제하는 코드입니다.
        """
        if node.getLHS() is not None:
            if node == self.root:
                self.root = node.getLHS()
            elif parent.getLHS() == node:
                parent.getLHS(node.getLHS())
                node.getLHS().setParent(parent)
            else:
                parent.setRHS(node.getLHS())
                node.getLHS().setParent(parent)
            return
        if node.getRHS() is not None:
            if node == self.root:
                self.root = node.getRHS()
            elif parent.getLHS() == node:
                parent.getLHS(node.getRHS())
                node.getRHS().setParent(parent)
            else:
                parent.setRHS(node.getRHS())
                node.getRHS().setParent(parent)
            return
        """
        자식을 갖지 않는 노드의 값을 삭제하는 경우입니다.
        """
        if node == self.root:
            self.root = None
        elif parent.getLHS() == node:
            parent.setLHS(None)
        else:
            parent.setRHS(None)
        return

위 코드에 있는 findMax 와 findMin 함수 역시 따로 정의를 해주어야 합니다. 아래와 같이 각 함수를 정의할 수 있습니다.

def findMax(self, node=None):
    if node is None:
        node = self.root
    if node.getRHS() is None:
        return node
    return self.findMax(node.getRHS())

def findMin(self, node=None):
    if node is None:
        node = self.root
    if node.getLHS() is None:
        return node
    return self.findMin(node.getLHS())

Traversing

Traverse는 ‘가로지르다’라는 뜻을 가진 단어입니다. 연결된 리스트나 배열에서 존재하지 않았던 Traversing 이란 말 그대로 모든 노드를 가로지르며 값을 훑는 것입니다. 이전에 배웠던 자료구조는 중간에 갈라지는 길이 없으므로 탐색(Search)하면서 모든 노드를 다 거칠 수 있었습니다. 하지만 트리에서는 길이 나누어지므로 값을 찾는 탐색만으로 모든 노드를 거쳐갈 수 없게 되지요.

Traversing의 방법은 크게 깊이 우선 탐색법(Depth first search, DFS) 과 너비 우선 탐색법(Breadth first search, BFS) 두 가지로 나뉩니다. 먼저 깊이 우선 탐색법에 대해 알아봅시다. 깊이 우선 탐색법은 순서에 따라 3가지 방법이 있습니다. 첫 번째가 현재 노드의 값을 탐색한 후 LHS, RHS 순서로 탐색하는 Pre-order Traverse 입니다. 두 번째는 LHS를 먼저 탐색하고 현재 노드의 값을 탐색한 후 RHS값을 탐색하는 In-order Traverse 입니다. 마지막 방법으로는 LHS와 RHS를 모두 탐색한 후 맨 마지막에 현재 노드의 값을 탐색하는 Post-order Traverse가 있습니다. 아래의 트리를 보며 설명을 이어나가겠습니다. 아래의 노드를 각 방법으로 Traversing 해보겠습니다.

traversing

이미지 출처 : towardsdatascience.com

먼저 Pre-order 방식입니다. 앞서 말했던 것처럼 이 방식은 현재 노드 - LHS를 따라 내려간 노드 - RHS를 따라 내려간 노드 순으로 탐색합니다. 아래 그림과 같은 방법으로 탐색이 이루어집니다. 접근하는 노드의 값을 무조건 얻기 때문에 루트 노드 부터 탐색하는 것을 볼 수 있습니다.

pre-order

이미지 출처 : towardsdatascience.com

다음은 In-order 방식입니다. 이 방식은 LHS를 따라 내려간 노드 - 현재 노드 - RHS를 따라 내려간 노드 순으로 탐색합니다. 아래 그림과 같은 방법으로 탐색이 이루어집니다. 현재 노드의 값을 얻지 않고 일단 LHS가 없을 때까지 내려가기 때문에 가장 왼쪽 아래에서부터 탐색이 시작되는 것을 볼 수 있습니다.

in-order

이미지 출처 : towardsdatascience.com

다음은 Post-order 방식입니다. 이 방식은 LHS를 따라 내려간 노드 - RHS를 따라 내려간 노드 - 현재 노드 순으로 탐색합니다. 아래 그림과 같은 방법으로 탐색이 이루어집니다. 현재 노드의 값을 얻지 않고 일단 LHS와 RHS가 모두 없을 때까지 내려가기 때문에 가장 왼쪽 아래에서부터 아래쪽을 다 훑고 난 후에 위로 올라오는 방향으로 탐색이 되는 것을 볼 수 있습니다.

post-order

이미지 출처 : towardsdatascience.com

각각의 깊이 우선 탐색 과정을 파이썬 코드로 구현하면 다음과 같습니다.

"""
일단 현재 노드의 값을 추가한 뒤
LHS, RHS 순으로 탐색합니다.
"""
def traversePreOrder(self, node=None):
    if node is None:
        node = self.root
    ret = []
    ret.append(node.getValue())
    if node.getLHS() is not None:
        ret = ret + self.traversePreOrder(node.getLHS())
    if node.getRHS() is not None:
        ret = ret + self.traversePreOrder(node.getRHS())
    return ret

"""
일단 현재 LHS 부분부터 최대한 탐색한 뒤
현재 노드의 값을 추가하고 그 다음 RHS 부분을 탐색합니다.
"""
def traverseInOrder(self, node=None):
    if node is None:
        node = self.root
    ret = []
    if node.getLHS() is not None:
        ret = ret + self.traversePreOrder(node.getLHS())
    ret.append(node.getValue())
    if node.getRHS() is not None:
        ret = ret + self.traversePreOrder(node.getRHS())
    return ret

"""
일단 현재 LHS 부분부터 최대한 탐색한 뒤
그 다음 RHS 부분을 탐색하고
둘 다 존재하지 않을 때, 혹은 이미 탐색한 노드일 때
현재 노드의 값을 추가합니다.
"""
def traversePostOrder(self, node=None):
    if node is None:
        node = self.root
    ret = []
    if node.getLHS() is not None:
        ret = ret + self.traversePreOrder(node.getLHS())
    if node.getRHS() is not None:
        ret = ret + self.traversePreOrder(node.getRHS())
    ret.append(node.getValue())
    return ret

다음은 너비 우선 탐색법에 대해 알아보겠습니다. 이 방법은 같은 높이에 있는 것부터 탐색합니다. 루트 노드부터 탐색을 하게 되며 위쪽 레벨(level)의 노드를 모두 거치고 난 후 아래쪽 레벨로 내려갑니다. 아래 그림처럼 탐색이 이루어집니다.

bfs

이미지 출처 : towardsdatascience.com

너비 우선 탐색법은 큐(Queue)를 사용하여 값을 뽑아냅니다. 가장 먼저 루트 노드의 값을 Enqueue 해줍니다. 다음 단계부터는 만들어진 큐에서 하나씩을 Dequeue 하게 되며 동시에 Dequeue 하는 값이 있는 노드의 자식 노드의 값을 Enqueue 해줍니다. Dequeue한 값이 있는 노드가 리프 노드라면 아무것도 Enqueue 해주지 않습니다. 위 그림에서는 다음과 같이 큐의 요소가 변하며 너비 우선 탐색이 이루어지는 것을 알 수 있습니다.

Current	Queue
	1
1	2, 3
2	3, 4, 5
3	4, 5, 6, 7
4	5, 6, 7, 8
5	6, 7, 8
6	7, 8, 9, 10
7	8, 9, 10
8	9, 10
9	10
10

아래는 Breadth First Traverse를 파이썬 코드로 구현한 것입니다.

def traverseLevelOrder(self):
    """
    먼저 큐를 만들고 루트 노드의 값을 추가해줍니다.
    """
    ret = []
    Q = Queue()
    Q.enqueue(self.root)
    
    """
    아래의 과정을 큐가 비어있을 때까지 반복합니다.
    """
    while not Q.isEmpty():
        """
    	첫 번째 값을 Dequeue하여 뽑아냅니다.
    	"""
        node = Q.dequeue()
        if node is None:
            continue
		ret.append(node.getValue())
        """
    	그 노드의 자식 노드,
    	즉 LHS와 RHS가 가리키는 값을 Enqueue합니다.
    	"""
        if node.getLHS() is not None:
            Q.enequeue(node.getLHS())
        if node.getRHS() is not None:
            Q.enequeue(node.getRHS())
    return ret

트리 구조의 성능

다음은 연결된 리스트와 일반적인 이진 탐색 트리, 그리고 최악의 경우인 이진 탐색 트리에서의 탐색, 삽입, 삭제, Traversing Operation의 성능을 비교한 표입니다. 아래에서 최악의 경우인 이진 탐색 트리는 어떻게 생겼을까요? 이곳 에서 다루었던 Degenerate Tree의 경우가 최악의 경우에 속합니다. 리프 노드 이전 노드까지의 모든 노드가 자식 노드를 하나만 갖는다면 레퍼런스가 갈라지는 부분이 없기 때문에 연결된 리스트와 탐색 시간이 같아지게 됩니다. 하지만 대부분의 경우 이진 탐색 트리에서 특정 요소를 찾는 Operation의 시간 복잡도는 $O(\log n)$ 으로 연결된 리스트의 $O(n)$ 보다 이상적입니다.