본문 바로가기

문돌이 존버/프로그래밍 스터디

(프로그래머스 연습 문제 풀이) 문자열 압축

반응형
문제 설명
데이터 처리 전문가가 되고 싶은 "어피치"는 문자열을 압축하는 방법에 대해 공부를 하고 있습니다. 최근에 대량의 데이터 처리를 위한 간단한 비손실 압축 방법에 대해 공부를 하고 있는데, 문자열에서 같은 값이 연속해서 나타나는 것을 그 문자의 개수와 반복되는 값으로 표현하여 더 짧은 문자열로 줄여서 표현하는 알고리즘을 공부하고 있습니다.
간단한 예로 "aabbaccc"의 경우 "2a2ba3c"(문자가 반복되지 않아 한번만 나타난 경우 1은 생략함)와 같이 표현할 수 있는데, 이러한 방식은 반복되는 문자가 적은 경우 압축률이 낮다는 단점이 있습니다. 예를 들면, "abcabcdede"와 같은 문자열은 전혀 압축되지 않습니다. "어피치"는 이러한 단점을 해결하기 위해 문자열을 1개 이상의 단위로 잘라서 압축하여 더 짧은 문자열로 표현할 수 있는지 방법을 찾아보려고 합니다.
예를 들어, "ababcdcdababcdcd"의 경우 문자를 1개 단위로 자르면 전혀 압축되지 않지만, 2개 단위로 잘라서 압축한다면 "2ab2cd2ab2cd"로 표현할 수 있습니다. 다른 방법으로 8개 단위로 잘라서 압축한다면 "2ababcdcd"로 표현할 수 있으며, 이때가 가장 짧게 압축하여 표현할 수 있는 방법입니다.
다른 예로, "abcabcdede"와 같은 경우, 문자를 2개 단위로 잘라서 압축하면 "abcabc2de"가 되지만, 3개 단위로 자른다면 "2abcdede"가 되어 3개 단위가 가장 짧은 압축 방법이 됩니다. 이때 3개 단위로 자르고 마지막에 남는 문자열은 그대로 붙여주면 됩니다.
압축할 문자열 s가 매개변수로 주어질 때, 위에 설명한 방법으로 1개 이상 단위로 문자열을 잘라 압축하여 표현한 문자열 중 가장 짧은 것의 길이를 return 하도록 solution 함수를 완성해주세요.

제한사항
1. s의 길이는 1 이상 1,000 이하입니다.
2. s는 알파벳 소문자로만 이루어져 있습니다.

입출력 예
s                                           result
"aabbaccc"                                7
"ababcdcdababcdcd"                   9
"abcabcdede"                             8
"abcabcabcabcdededededede"      14
"xababcdcdababcdcd"                 17

입출력 예에 대한 설명
입출력 예 #1
문자열을 1개 단위로 잘라 압축했을 때 가장 짧습니다.

입출력 예 #2
문자열을 8개 단위로 잘라 압축했을 때 가장 짧습니다.

입출력 예 #3
문자열을 3개 단위로 잘라 압축했을 때 가장 짧습니다.

입출력 예 #4
문자열을 2개 단위로 자르면 "abcabcabcabc6de" 가 됩니다. 문자열을 3개 단위로 자르면 "4abcdededededede" 가 됩니다. 문자열을 4개 단위로 자르면 "abcabcabcabc3dede" 가 됩니다. 문자열을 6개 단위로 자를 경우 "2abcabc2dedede"가 되며, 이때의 길이가 14로 가장 짧습니다.

입출력 예 #5
문자열은 제일 앞부터 정해진 길이만큼 잘라야 합니다. 따라서 주어진 문자열을 x / ababcdcd / ababcdcd 로 자르는 것은 불가능 합니다. 이 경우 어떻게 문자열을 잘라도 압축되지 않으므로 가장 짧은 길이는 17이 됩니다.
def solution(s):
    answer = len(s)
    for i in range(1, len(s) // 2 + 1): # 문자열의 절반까지 순회
        compressed = ''
        prev = s[0:i] # 비교를 위한 문자열 초기화
        count = 1 # 반복되는 횟수
        for j in range(i, len(s), i): # 반복되는 문자열 갯수대로 jump
            if prev == s[j:j+i]: # 앞서 정의한 prev와 문자열 비교
                count += 1
            else:
                if count >= 2:
                    compressed += str(count) + prev
                else:
                    compressed += prev
                # 문자열이 반복되지 않기 때문에 비교를 위한 문자열 다시 초기화
                prev = s[j:j+i]
                count = 1
        
        # 남아 있는 문자열 처리
        if count >= 2:
            compressed += str(count) + prev
        else:
            compressed += prev
            
        answer = min(answer, len(compressed)) # for 문 안에 있으면서 answer은 계속 업데이트
    return answer

해당 문제는 설명이 굉장히 길고 복잡하지만 해결 방법은 결국 완전탐색이다. 즉 문자열을 몇 개 단위로 자를지 다 해보고 결과값이 가장 짧은 것을 출력하면 되는 것이다. 이것은 가장 바깥에 있는 for문을 통해 시도하게 된다. 다만, 전체 길이를 순회할 필요 없이 전체 길이의 절반까지만 살펴보면 된다. 예를 들어, 길이가 10인 문자열을 6개 단위로 자르는 것은 말이 되지 않기 때문이다.

여기서 예는 "abcabcdede"를 대상으로 하고 시뮬레이션을 보이려고 한다. 처음엔 바깥의 for문에서 i=1로 시작한다.

def solution(s):
    answer = len(s) # 10
    for i in range(1, len(s) // 2 + 1): # i = 1로 시작
        compressed = ''
        prev = s[0:i] # prev = 'a'
        count = 1
        for j in range(i, len(s), i): # j = 1로 시작
            if prev == s[j:j+i]: 
                count += 1
            else: # s[1:1+1] = 'b'
                if count >= 2:
                    compressed += str(count) + prev
                else: # count = 1
                    compressed += prev # compressed = 'a'
                prev = s[j:j+i] # prev = 'b'
                count = 1
                # for문 반복(j = 2로 시작)

    if count >= 2:
        compressed += str(count) + prev
    else:
        compressed += prev
def solution(s):
    answer = len(s) 
    for i in range(1, len(s) // 2 + 1):
        compressed = ''
        prev = s[0:i] 
        count = 1
        for j in range(i, len(s), i): # j = 2로 시작
            if prev == s[j:j+i]: 
                count += 1
            else: # prev = 'b' / s[2:2+1] = 'c'
                if count >= 2:
                    compressed += str(count) + prev
                else: # count = 1
                    compressed += prev # compressed = 'ab'
                prev = s[j:j+i] # prev = 'c'
                count = 1
                # for문 반복(j = 3으로 시작)

    if count >= 2:
        compressed += str(count) + prev
    else:
        compressed += prev
def solution(s):
    answer = len(s) 
    for i in range(1, len(s) // 2 + 1):
        compressed = ''
        prev = s[0:i] 
        count = 1
        for j in range(i, len(s), i): # j = 3으로 시작
            if prev == s[j:j+i]: 
                count += 1
            else: # prev = 'c' / s[3:3+1] = 'a'
                if count >= 2:
                    compressed += str(count) + prev
                else: # count = 1
                    compressed += prev # compressed = 'abc'
                prev = s[j:j+i] # prev = 'a'
                count = 1
                # for문 반복(j = 4로 시작)

    if count >= 2:
        compressed += str(count) + prev
    else:
        compressed += prev

위 과정을 살펴보면 문자열을 1개 단위로 잘라서는 "abcabcdede"의 경우 반복되는 문자열을 찾을 수 없다는 것을 알게 된다. 즉 i = 1일 때는 아무런 획득이 없고, i = 2부터 획득이 있을 것으로 보이는데 "dede" 부분 때문이다. 아마 prev = de가 유지되고 i = 2이므로 문자열 2개씩 jump하는데, 뒤의 de가 중복되기 때문에 결과는 "abcabc2de"가 될 것이다.

i = 3의 경우 prev = abc가 유지되면서 "3abcdede"가 되고 answer = 8이 되고 i = 2 일때의 answer = 9보다 작다. 이런 과정을 i = 5까지 반복하고, 마지막에 answer 변수를 min(answer, compressed)로 업데이트하기 때문에 마지막에 남겨진 answer가 곧 정답이 되는 것이다.

풀고나서 보면 생각보다 노가다성(?) 구현에 가까워 복잡하지 않다고 느낄 수 있지만 현장에선 노가다의 필요성에 자꾸 의구심을 품기 때문에 어렵게 생각하려는 것 같다...

728x90
반응형