📌 문제
[본 문제는 정확성과 효율성 테스트 각각 점수가 있는 문제입니다.]
카카오는 하반기 경력 개발자 공개채용을 진행 중에 있으며 현재 지원서 접수와 코딩테스트가 종료되었습니다. 이번 채용에서 지원자는 지원서 작성 시 아래와 같이 4가지 항목을 반드시 선택하도록 하였습니다.
- 코딩테스트 참여 개발언어 항목에 cpp, java, python 중 하나를 선택해야 합니다.
- 지원 직군 항목에 backend와 frontend 중 하나를 선택해야 합니다.
- 지원 경력구분 항목에 junior와 senior 중 하나를 선택해야 합니다.
- 선호하는 소울푸드로 chicken과 pizza 중 하나를 선택해야 합니다.
인재영입팀에 근무하고 있는 니니즈는 코딩테스트 결과를 분석하여 채용에 참여한 개발팀들에 제공하기 위해 지원자들의 지원 조건을 선택하면 해당 조건에 맞는 지원자가 몇 명인 지 쉽게 알 수 있는 도구를 만들고 있습니다.
예를 들어, 개발팀에서 궁금해하는 문의사항은 다음과 같은 형태가 될 수 있습니다.
코딩테스트에 java로 참여했으며, backend 직군을 선택했고, junior 경력이면서, 소울푸드로 pizza를 선택한 사람 중 코딩테스트 점수를 50점 이상 받은 지원자는 몇 명인가?
물론 이 외에도 각 개발팀의 상황에 따라 아래와 같이 다양한 형태의 문의가 있을 수 있습니다.
- 코딩테스트에 python으로 참여했으며, frontend 직군을 선택했고, senior 경력이면서, 소울푸드로 chicken을 선택한 사람 중 코딩테스트 점수를 100점 이상 받은 사람은 모두 몇 명인가?
- 코딩테스트에 cpp로 참여했으며, senior 경력이면서, 소울푸드로 pizza를 선택한 사람 중 코딩테스트 점수를 100점 이상 받은 사람은 모두 몇 명인가?
- backend 직군을 선택했고, senior 경력이면서 코딩테스트 점수를 200점 이상 받은 사람은 모두 몇 명인가?
- 소울푸드로 chicken을 선택한 사람 중 코딩테스트 점수를 250점 이상 받은 사람은 모두 몇 명인가?
- 코딩테스트 점수를 150점 이상 받은 사람은 모두 몇 명인가?
즉, 개발팀에서 궁금해하는 내용은 다음과 같은 형태를 갖습니다.
📌 입력
[제한사항]
- info 배열의 크기는 1 이상 50,000 이하입니다.
- info 배열 각 원소의 값은 지원자가 지원서에 입력한 4가지 값과 코딩테스트 점수를 합친 "개발언어 직군 경력 소울푸드 점수" 형식입니다.
- 개발언어는 cpp, java, python 중 하나입니다.
- 직군은 backend, frontend 중 하나입니다.
- 경력은 junior, senior 중 하나입니다.
- 소울푸드는 chicken, pizza 중 하나입니다.
- 점수는 코딩테스트 점수를 의미하며, 1 이상 100,000 이하인 자연수입니다.
- 각 단어는 공백문자(스페이스 바) 하나로 구분되어 있습니다.
- query 배열의 크기는 1 이상 100,000 이하입니다.
- query의 각 문자열은 "[조건] X" 형식입니다.
- [조건]은 "개발언어 and 직군 and 경력 and 소울푸드" 형식의 문자열입니다.
- 언어는 cpp, java, python, - 중 하나입니다.
- 직군은 backend, frontend, - 중 하나입니다.
- 경력은 junior, senior, - 중 하나입니다.
- 소울푸드는 chicken, pizza, - 중 하나입니다.
- '-' 표시는 해당 조건을 고려하지 않겠다는 의미입니다.
- X는 코딩테스트 점수를 의미하며 조건을 만족하는 사람 중 X점 이상 받은 사람은 모두 몇 명인 지를 의미합니다.
- 각 단어는 공백문자(스페이스 바) 하나로 구분되어 있습니다.
- 예를 들면, "cpp and - and senior and pizza 500"은 "cpp로 코딩테스트를 봤으며, 경력은 senior 이면서 소울푸드로 pizza를 선택한 지원자 중 코딩테스트 점수를 500점 이상 받은 사람은 모두 몇 명인가?"를 의미합니다.
📌 출력
[문제]
지원자가 지원서에 입력한 4가지의 정보와 획득한 코딩테스트 점수를 하나의 문자열로 구성한 값의 배열 info, 개발팀이 궁금해하는 문의조건이 문자열 형태로 담긴 배열 query가 매개변수로 주어질 때,
각 문의조건에 해당하는 사람들의 숫자를 순서대로 배열에 담아 return 하도록 solution 함수를 완성해 주세요.
📌 문제 풀이
👨🏫 접근
너무 어려워서 풀지 못했다.
처음에는 트리로 문제를 풀어볼까? 라고 생각했는데, 트리로 문제를 풀어본 적이 없기에 시도해보지는 못했다. 그래도 풀이를 보니까 약간의 트리구조를 사용해서 문제를 푸는 것 같아 보인다.
1. 분류 테이블
먼저 하나의 거대한 테이블이 있다고 생각해보자. 그 테이블에서는 '-', 'cpp', 'java', 'python'이라는 값이 있다. 그리고 그 각각의 값에는 다시 하위로 '-', 'backend', 'frontend' 두 개의 값이 있고, 그리고 또 그 하위에는 '-', 'junior', 'senior', 또또 그 하위에는 '-', 'chicken'과 'pizza'가 있다.
그래서 앞의 언어 선택의 경우의 수는 4개, 직군은 3개, 경력도 3개, 소울푸드도 3개가 있어서 모든 경우의 수는 4 * 3 * 3 * 3 => 108개가 존재하기에 108개의 리스트를 만들어서 개수를 체크해야 한다. 그 후에 입력을 받아서 각각 해당할 수 있는 경우에 코딩테스트 점수를 저장한다.
2. 부분집합
예를 들어서 '코딩 테스트 언어는 java, 희망하는 직군은 backend, 지원 경력이 junior, 소울푸드가 pizza' 라면, 이 사람이 해당할 수 있는 모든 경우의 수는 코딩 테스트 언어에서 '-' 혹은 'java'로 두 가지, 희망 직군이 '-' 혹은 'backend'로 두 가지, 지원 경력이 '-' 혹은 'junior'로 2가지, 마지막으로 소울푸드로 '-', 'pizza'로 두 가지 경우가 있기에 총 발생할 수 있는 부분집합은 16개이다.
풀어서 직접 보자면, (-, -, -, -), (-, -, -, pizza), (-, -, junior, -), (-, -, junior, pizza), (-, backend, -, -), (-, backend, -, pizza), (-, backend, junior, -), (-, backend, junior, pizza), (java, -, -, -), (java, -, -, pizza), (java, -, junior, -), (java, -, junior, pizza), (java, backend, -, -), (java, backend, -, pizza), (java, backend, junior, -), (java, backend, junior, pizza) 이렇게 총 16가지의 종류에 해당할 수 있기 때문에 16개의 부분집합에 코딩테스트 점수를 기록한다.
3. 분류 테이블 값 할당
먼저 인덱스를 할당하는 방법을 알아야 한다. 일단 총 만들어질 수 있는 가지수는 108개이고, 이를 인덱스로 사용한다. 그래서 언어 선택이 '-' 이고, 지원 직군이 '-', 지원 경력이 '-', 소울푸드가 '-'인 분류의 인덱스를 0으로 지정하고, 언어 선택이 'python', 지원 직군이 'frontend', 지원 경력이 'senior', 소울푸드가 'pizza'인 분류의 인덱스를 127로 지정한다.
그후 언어를 '-'로 두었을 때는 지원 직군 3가지 * 지원 경력 3가지 * 소울 푸드 3가지 = 27개의 분류를 가진다. 그래서 언어가 '-'인 경우는 0~26, 'cpp'인 경우 27 ~ 53, 'java'인 경우 54 ~ 80, 'python'인 경우 81 ~ 127의 인덱스를 가진다. 지원 직군까지 추가적으로 예를 들자면, '-' 언어이고 지원 직군이 '-'일 때 지원 경력 3가지 * 소울 푸드 3가지 = 9가지의 분류를 가진다. 그래서 '-' 언어일 때, 지원 직군이 '-'인 경우 0 ~ 8, 'junior'인 경우 9 ~ 17, 'senior'인 경우 18 ~ 26이다.
그렇기에 집합의 원소를 아래와 같이 표현할 수 있다.
m = { '-': 0, 'cpp': 1, 'java': 2, 'python': 3,
'backend': 1, 'frontend': 2,
'junior': 1, 'senior': 2,
'chicken': 1, 'pizza': 2 }
arr = (m[선택 언어] * 3 * 3 * 3,
m[선택 직군] * 3 * 3,
m[선택 경력] * 3,
m[소울 푸드])
4. 구현
1. 분류 테이블
총 108개의 리스트를 만들어야 하므로 아래와 같이 구현한다.
slist = [[] for _ in range(4 * 3 * 3 * 3)]
2. 부분집합
부분집합을 구하기 위해서는 비트 마스킹을 통해서 쉽게 구현할 수 있다. 예를 들어 { A, B, C, D }의 집합이 있다고 할 때, 부분집합을 구하면, {}, {A}, {B}, {A, B}, {C}, {A, C}, {B, C}, {A, B, C}, {D}, {A, D}, {B, D}, {A, B, D}, {C, D}, {A, C, D}, {B, C, D}, {A, B, C, D} 이렇게 총 16개의 부분집합이 만들어진다. 앞선 사례와 같이 선택•비선택으로 24의 경우의 수가 있기 때문이다.
그런데 여기서 곰곰히 생각해보면 2진수를 통해 값을 나타내는 형태와 비슷하다. 십진수 수를 비트로 표현해보자. 그러면, 0부터 15까지 0000, 0001, 0010, 0011, 0100, 0101, 0110, 0111, 1000, 1001, 1010, 1011, 1100, 1101, 1110, 1111 이렇게 표현할 수 있다. 이때 이 비트를 통해서 각 자리수에 0인지 1인지에 따라서 해당 위치에 있는 원소를 집합에 넣는 것이다. 예를 들어, 5는 2진수로 0101인데 파이썬의 비트 쉬프트 연산자로 1 << 0, 1 << 1, 1 << 2, 1 << 3 연산을 통해 각 자리수를 비교하면 0101, 0101, 0101, 0101의 순서로 비교하면서 1일 때의 원소를 집합에 넣는다.
대략적인 흐름을 코드로 나타내면 아래와 같이 나타낼 수 있다.
arr = ['A', 'B', 'C', 'D']
set_list = []
for i in range(1 << 4):
s = []
for j in range(4):
if i & (1 << j):
s.append(arr[j])
set_list.append(s)
print(set_list)
[[], ['A'], ['B'], ['A', 'B'],
['C'], ['A', 'C'], ['B', 'C'], ['A', 'B', 'C'],
['D'], ['A', 'D'], ['B', 'D'], ['A', 'B', 'D'],
['C', 'D'], ['A', 'C', 'D'], ['B', 'C', 'D'], ['A', 'B', 'C', 'D']]
이처럼 쉽게 부분집합을 구할 수 있으므로 각 분류에서 선택하는 경우와 선택하지 않는 모든 경우를 테이블에 기록하여 발생할 수 있는 모든 요구에 충족할 수 있다.
for i in range(1 << 4):
idx = 0
for j in range(4):
if i & (1 << j):
idx += arr[j]
slist[idx].append(score)
총 16 가지의 경우의 수가 있으므로 모든 상황을 검사하며, 그 경우에서의 테이블에 점수를 기록하기 위해 인덱스 값을 검사하여 코딩 테스트 점수를 기록해준다.
3. 이분탐색
이제 특정 코딩테스트 점수 이상을 받은 사람만 조회하면 된다. bisect 라이브러리를 사용하거나 직접 이분탐색을 구현하면 된다. 이분 탐색은 계속 반으로 나눠서 검색하는 방식으로 흐름만 기억하면 구현 난이도는 어려운 편이 아니다.
pl = 0
pr = len(arr) - 1
target = k
while pl <= pr:
mid = (pl + pr) // 2
if arr[mid] > target:
idx = mid
pr = mid - 1
else:
pl = mid + 1
이상의 값을 구해야 하므로, 특정 타겟보다 값이 같거나 큰 경우에서 인덱스 값을 저장해준다.
👨🏫 문제 풀이
📄 전체 코드
from bisect import bisect_left
def solution(info, query):
wmap = {'-': 0, 'cpp': 1, 'java': 2, 'python': 3,
'backend': 1, 'frontend': 2,
'junior': 1, 'senior': 2,
'chicken': 1, 'pizza': 2}
slist = [[] for _ in range(4*3*3*3)]
for string in info:
w = string.split()
arr = (wmap[w[0]] * 3 * 3 * 3,
wmap[w[1]] * 3 * 3,
wmap[w[2]] * 3,
wmap[w[3]])
score = int(w[4])
for i in range(1<<4):
idx = 0
for j in range(4):
if i & (1 << j):
idx += arr[j]
slist[idx].append(score)
for i in range(4 * 3 * 3 * 3):
slist[i] = sorted(slist[i])
answer = []
for string in query:
w = string.split()
idx = wmap[w[0]]*3*3*3 + wmap[w[2]]*3*3 + wmap[w[4]]*3 + wmap[w[6]]
score = int(w[7])
answer.append(len(slist[idx]) - bisect_left(slist[idx], score))
return answer
📄 준비
from bisect import bisect_left
def solution(info, query):
wmap = {'-': 0, 'cpp': 1, 'java': 2, 'python': 3,
'backend': 1, 'frontend': 2,
'junior': 1, 'senior': 2,
'chicken': 1, 'pizza': 2}
slist = [[] for _ in range(4*3*3*3)]
각각에 값을 매핑해주도록 딕셔너리를 사용하며, 모든 경우의 수를 고려하기에 108개의 리스트를 만들었다.
📄 풀이
for string in info:
w = string.split()
arr = (wmap[w[0]] * 3 * 3 * 3,
wmap[w[1]] * 3 * 3,
wmap[w[2]] * 3,
wmap[w[3]])
score = int(w[4])
for i in range(1<<4):
idx = 0
for j in range(4):
if i & (1 << j):
idx += arr[j]
slist[idx].append(score)
for i in range(4 * 3 * 3 * 3):
slist[i] = sorted(slist[i])
answer = []
for string in query:
w = string.split()
idx = wmap[w[0]]*3*3*3 + wmap[w[2]]*3*3 + wmap[w[4]]*3 + wmap[w[6]]
score = int(w[7])
answer.append(len(slist[idx]) - bisect_left(slist[idx], score))
return answer
각 선택 분야에서 언어 등을 선택했을 때 테이블의 특정 인덱스에 값을 넣을 수 있도록 4개의 원소를 가지는 튜플에 각각 값을 집어넣었다. 그 이후에 비트 마스킹 연산으로 부분집합을 구해 가능한 경우에 모두 코딩테스트 점수를 넣어준다. 그 이후, 모든 경우의 수에서 정렬을 사용해준다. 왜냐하면 이분탐색은 정렬한 경우에만 사용할 수 있기 때문이다.
그 다음 모든 쿼리에 대하여 이분 탐색으로 값을 찾아 그 인덱스를 전체 길이에서 빼준다.
📌 총평
여기서 많은 것을 배울 수 있었다. 일단 모든 경우를 고려하는 방법으로 하나의 거대한 테이블을 만들어 모든 경우의 수를 고려할 수 있도록 하는 것이다.
또한, 부분집합을 위해 비트 마스킹 연산을 사용하면 쉽게 구현할 수 있음도 알 수 있었다.
'Algorithm > Implementation & simulation' 카테고리의 다른 글
[Python - Simulation, implementation] 18808 - 스티커 붙이기 (1) | 2022.10.25 |
---|---|
[Python - Simulation] 15683 - 감시 (0) | 2022.10.24 |
[Python - implementation] 14503 로봇 청소기 (0) | 2022.10.09 |
[Python - implementation] 14499 주사위 굴리기 (0) | 2022.10.07 |