Recommanded Free YOUTUBE Lecture: <% selectedImage[1] %>

구문 관계 정보 추출을 위한 말뭉치의 정규화에 대한 연구

성명 : 조 정미,김 길창 소속 : 한국과학기술원 전산학과 키워드 : 말뭉치, 언어 정보 추출, 격이동, 주소 : 대전시 유성구 구성동 373-1 한국과학기술원 우편 번호 : 305-701 전화 번호 : 042-869-3551 FAX 번호 : 042-869-3510 E-mail : jmcho@csone.kaist.ac.kr, gckim@csking.kaist.ac.kr

Contents

요약문

대량의 말뭉치를 이용해 여러 가지 일반적인 언어 현상을 관찰하고, 언어 정보를 자동으로 추출하여 자연 언어 처리의 여러 분야에 이용하는 연구가 활발히 진행되고 있다. 이에 따라 말뭉치에 대한 필요성이 날로 증가하고 있다. 말뭉치에서 추출할 수 있는 유용한 정보 중의 하나가 구문 관계 정보이다. 그러나 한국어에 자주 나타나는 격이동이나 생략 현상, 복합어의 중복 현상은 정확한 정보 추출을 어렵게 할 뿐 아니라 자료 희귀 문제를 더욱 심화시킨다. 본 논문에서는 한국어의 문법적인 특징을 반영한 말뭉치 정규화로 이러한 문제를 해결한다.

Recently, with the increasing availability of large corpus, there have been numerous attempts to automatically acquire the linguistic information from the corpus. Syntactic relations are one of such information that can be extracted automatically from a corpus and is very useful. But the case shift and ellipsis phenomena, duplicated usage of the compound word in Korean make the automatic extraction difficult and the problem of sparse data more critical. This paper tries to solve these problems through a corpus formalization made by reflecting grammatical features in Korean.

서론

말뭉치는 많은 언어적 현상을 포함하고 있다. 따라서 이로부터 언어 정보를 추출하여 자연 언어 처리에 이용하는 연구가 많이 수행되고 있다. 특히 대량의 말뭉치 이용이 가능해지면서 말뭉치에 대한 의존도가 점점 높아지고 있다[1]. 말뭉치는 가공 정도에 따라 텍스트로만 이루어지거나, 형태소 해석이 되어 품사가 부착되어 있거나, 문장 단위로 구문 구조가 분석되어 있을 수도 있다. 본 논문에서는 품사가 부착되어 있는 형태소 해석된 말뭉치를 대상으로 한다. 형태소 해석이 되어 품사가 부착된 말뭉치에서는 단어나 품사의 빈도 정보, 품사간의 공기 정보나 단어와 품사간 연관 정보 등 다양한 정보를 추출할 수 있다.

한국어는 형태적으로 첨가어에 속하며, 첨가어는 의미를 갖는 실질 형태소에 조사나 어미 등의 어법적 관계를 나타내는 형식 형태소가 붙음으로써 문법 기능을 한다[2]. 문법적 기능이 형식 형태소에 의해 결정되므로 어순이 바뀌어도 문장의 의미가 크게 변하지 않으며 이로 인해 부분 자유 어순의 특성을 가진다. 그리고 구문 분석 없이도 실질 형태소에 붙은 형식 형태소로 그 실질 형태소의 문법적 기능을 어느 정도 알 수 있다. 그러므로 품사가 부착된 한국어 말뭉치로부터 추출할 수 있는 유용한 정보 중의 하나가 형식 형태소인 조사를 중심으로 서술어와 구성 성분간의 구문 관계 정보이다. 예를 들면, “철수가 밥을 먹는다”라는 문장에서 ‘철수’는 주격 조사 ‘가’에 의해 ‘먹다’의 주어가 되며, ‘밥’은 목적격 조사 ‘을’에 의해 목적어가 된다. 따라서 이 문장으로부터 철수-주어-먹다, 밥-목적어-먹다와 같은 구문 관계 정보를 추출할 수 있게 된다.

한국어는 구성 성분의 생략이나 격이동 현상이 빈번하게 나타난다. 격이동이란 본용언에 조동사나 접사, 또는 조동사 상당어구 등이 덧붙여지면서 조사의 역할이 바뀌거나 추가적인 구성 성분을 요구하게 되는 현상을 의미한다[6] 이와 같은 격이동 현상이나 생략 현상은 말뭉치로부터 언어 정보를 추출하고자 할 경우 여러 가지 어려움을 준다. 예를 들면,
  1. 노루가 포수에게 잡히다.
  2. 포수가 노루를 잡았다.
  3. 나는 화를 내지 않으려고 무척 애쓴다.
  4. 나는 화 내지 않으려고 무척 애를 쓴다.
  5. 그는 공부를 하고 나는 일한다.
  6. 그는 공부하고 나는 일을 한다.
  7. 아이들이 방에서 논다.
  8. 아이들을 방에서 놀게 하다
문장 짝 1)-2), 3)-4), 5)-6), 7)-8)들은 각각 서로 같은 의미를 갖는 문장들이다. 그러나 조사 생략과 격이동 현상 그리고 복합어의 중복 현상에 의해 표층적으로 서로 다른 문장으로 나타나고 있다. 즉, 1)-6)의 문장으로부터 서술어를 추출하고자 할 경우, ‘잡히다-잡다’, ‘애쓰다-쓰다’, ‘일하다-하다’, ‘하다-공부하다’ 등 각 문장마다 서로 다른 서술어가 추출된다. 특히 ‘애쓰다-쓰다’, ‘일하다-하다’, ‘하다-공부하다’는 복합어의 중복 현상으로 발생한다. 이것은 말뭉치로부터 자료를 추출할 경우 가장 큰 문제가 되는 자료 희귀 문제(data sparseness)를 더욱 심화시키게 된다.

또한 위에서 언급한 구문 관계 정보를 추출하고자 할 경우에도 오류가 포함될 위험이 있다. 예를 들어, 문장 7), 8)에서 구문 관계 정보를 추출하고자 할 경우, 문장 7)에서는 ‘아이들-주어-놀다’라는 관계가 추출되고, 문장 8)에서는 ‘아이들-목적어-놀다’라는 관계가 추출된다. 이것은 일반적으로 품사는 어절과 어절 간에 걸쳐서 부착이 되지 못하기 때문에 문장 8)에서도 서술어에 해당하는 품사를 갖는 것은 ‘놀다’가 된다. 따라서 ‘게 하다’에 의한 사동 처리를 하지 않을 경우, ‘아이들-목적어-놀다’라는 잘못된 정보를 추출하게 되는 것이다.

또한 문장 3)의 경우는 “나는 화를 내지 않으려고 나는 무척 애쓴다”라는 문장에서 선행문과 후행문의 주어가 동일하기 때문에 후행문의 주어가 생략된 경우이다. 따라서 이와 같이 주어가 생략되고 선행문과 후행문의 주어가 동일해야 한다는 원칙을 적용할 수 있는 경우에 이를 복구한다면, 말뭉치로부터 더욱 풍부한 구문 관계 정보를 얻을 수 있을 것이다.

살펴본 바와 같이 말뭉치로부터 표층적으로 언어 정보를 추출한다고 하는 것은 자료 희귀 문제를 심화시키고 잘못된 정보를 추출하게 되는 위험이 있다. 따라서 이와 같은 문제를 해결하기 위해 말뭉치를 정규화하는 작업이 필요하다. 말뭉치 정규화란 특정 목적의 정보 추출에 부합되지 않는 자료를 목적에 적합한 형태의 자료가 되도록 변형하는 작업이다. 이러한 말뭉치 정규화 작업은 다분히 어휘에 의존적이기 때문에 구문 분석으로 해결하기가 어렵다.

본 논문에서는 말뭉치로부터 정확한 구문 관계 정보 추출을 위한 말뭉치의 정규화에 대해 살펴보고 이의 유용함을 실험으로 확인해 보고자 한다.

말뭉치 정규화 범위 설정

본 장에서는 한국어 말뭉치의 정규화를 위한 한국어의 문법적 현상을 살펴보고 정규화 범위를 설정한다.

보조 용언에 의한 격이동 복원

본용언에 덧붙여지는 보조 용언 중에는 문장의 격요소의 역할을 바뀌게 하거나 새로운 격요소를 필요로 하게 하는 것들이 있다. 이러한 보조 용언이 문장에 나타날 경우, 조사의 격역할이 바뀌게 된다. 앞에서 살펴본 바와 같이 ‘잡다-잡히다’와 같이 피동 접미사에 의한 피동문이나 ‘게 하다’에 의한 사동문의 경우 조사의 격역할이 바뀌게 된다. 이러한 경우 외에 다음과 같은 예를 살펴보자.
  1. 철수는 고향이 그립다.
  2. 철수는 고향을 그리워 한다.
위의 두 문장으로부터 구문 관계 정보를 추출하고자 할 경우, ‘게 하다’에 의한 사동문에서 발생하는 것과 같은 잘못된 구문 관계를 추출하게 된다. 즉 ‘고향-주어-그립다’와 ‘고향-을-그립다’가 함께 추출이 된다. 따라서 정확한 말뭉치 분석을 위해서는 이와 같은 격이동에 의해 바뀐 조사를 복원하여야 한다.

복합어의 중복 현상 통일

단어 형성이란 새로운 단어를 만들어 내는 것을 뜻하며 이 때 만들어진 단어를 복합어라고 한다. 즉, 이것은 어근과 어근의 결합, 어근과 접사의 결합, 어근 창조 등의 방법으로 새로운 단어를 만들어 내는 것이다[5]. 이와 같은 방법에 의해 만들어질 수 있는 단어들은 그 쓰임에 있어서 중복 현상을 나타낸다.

예를 들면, 동작성 명사와 동사 파생 접미사 `하다'가 결합하여 동사가 되는 경우, 이들은 한 단어 동사로 나타날 수도 있고 목적격 관계로 나타날 수도 있으며 혹은 목적격 관계를 나타내는 조사가 생략되어 나타날 수도 있다. 즉, ‘준비’라는 동작성 명사에 ‘하다’라는 동사 파생 접미사가 결합된 경우, ‘준비하다’, ‘준비를 하다’, ‘준비 하다’, 이 세 가지 형태가 모두 말뭉치에 나타날 수 있다. 이러한 현상은 말뭉치로부터 자료를 추출할 경우 큰 문제가 되는 자료 희귀 문제를 더욱 가중시키게 되므로 말뭉치 정규화에 의해 어느 한 표현으로 통일해 주고자 한다.

접속문에 의해 생략된 주어 복원

접속(conjunction)은 둘 또는 그 이상의 문장이 연결 어미에 의해 대등적으로 혹은 종속적으로 결합되어 더욱 큰 문장이 되는 것이다. 두 문장이 연결 어미에 의해 결합될 때 여러 가지 제약이 따른다[5].

예를 들어, 인과 관계를 나타내는 ‘-느라고’는 선행문과 후행문의 주어가 동일하여야 한다는 동일 주어 제약이 있다. 따라서 “집을 찾느라고 그는 온 마을을 헤맸다.”라는 문장에서 선행문 “집을 찾다”와 후행문 “그는 온 마을을 헤맸다”의 주어는 모두 ‘그’로 동일해야 한다.

말뭉치 정규화에서는 이와 같이 동일 주어 제약을 적용할 수 있는 접속문의 경우 생략된 주어를 복구하고자 한다.

말뭉치 정규화 규칙

본 장에서는 2장에서 살펴본 현상들을 적용하기 위한 말뭉치 정규화 규칙에 대해 살펴보고자 한다.

격이동 복원

격이동 복원 규칙은 격이동 현상이 나타난 문장을 격이동이 일어나기 전의 형태로 복원한다.
단일 보조 용언인 경우
  • 피동
피동이란 어떤 주체가 동작 또는 상태 변화를 입음을 표현하는 태의 일종이다. 즉, 이것은 주체의 동작이나 상태의 변화가 다른 행위자에 의하여 이루어짐을 나타내는 문법 범주이다. 이와 달리 스스로의 힘으로 행하는 행위나 동작을 능동이라 한다[5]. 피동문의 유형은 예는 다음과 같다.
  1. 능동사 어간 + 피동 접미사 ‘이, 히, 리, 기’
  2. 능동사 어간 + 피동 접미사 ‘-아/어지다’
  3. 동작성명사 + ‘되다’
  4. 동작성명사 + ‘당하다’
  5. 동작성명사 + ‘받다’
다음은 피동문과 그에 해당하는 능동문의 예이다.
피동문 능동문
어린이가 개한테 물리었다 개가 어린이를 물었다.
얼굴이 창백해지다 얼굴이 창백하다
그들에 의해 협상이 깨어지다 그들이 협상을 깨다
A가 영희에 의해 B로 변경되다 영희가 A를 B로 변경하다
B가 영희에 의해 A에서 변경되다 영희가 A를 B로 변경하다
노태우가 검찰에 구속당하다 검찰이 노태우를 구속하다
박종철이 그에게 고문당하다 그가 박종철을 고문하다
환자가 의사에게 치료받다 의사가 환자를 치료하다
위의 예문에서 보듯이, 피동화는 격이동을 유발시키다. 따라서 조사의 변화가 있다. 즉, 능동문의 목적어가 피동문의 주어가 되며 능동문의 주어는 부사격 조사에 의해 부사어가 된다. 그러나 피동의 유형에 따라 격이동이 발생하지 않는 것들도 있다. 문장 2)에서 보듯이 형용사나 자동사에 피동 접미사 ‘-아/어지다’가 결합될 경우는 격이동이 발생하지 않는다. 이와 같은 예외를 제외한 피동문에서 조사의 변화를 정리하면 표 1과 같다.

<표 1> 피동 복원 규칙
규칙 피동문 능동문
P1
에게/한테/에/에 의해
P2
에게/에 의해
에서
  • 사동
남으로 하여금 어떤 동작을 하게 하는 동작을 사동이라고 한다.
  1. 철수가 아기에게 밥을 먹인다.
  2. 철수가 아기에게 밥을 먹게 한다.
위의 두 문장은 “철수가 아기로 하여금 밥을 먹도록 한다.”라는 공통된 의미를 나타내는 것이다. 이 두 문장에서 ‘철수’가 사동주에 해당하고, ‘아기’가 피사동주에 해당한다. 이와 같이, 사동주가 피사동주로 하여금 어떤 일을 시킴을 뜻하는 언어 형식을 사동이라고 한다. 반면에 어떤 동작이나 행위를 자기 스스로 행하는 것을 주동이라고 한다. 사동문의 유형은 다음과 같다.
  1. 능동사 어간 + 사동 접미사 ‘이, 히, 리, 기, 우, 구, 추’
  2. 능동사 어간 + ‘게 하다’
  3. 동작성 명사 + ‘시키다’
다음은 피동문과 그에 해당하는 주동문의 예이다.
사동문 주동문
철수가 얼음을 녹이다. 철수에 의해 얼음이 녹다.
아내가 남편을 길들이다 남편이 아내에게 길들다
|| 철수가 사실을 영희에게 알리다 || 영희가 철수에 의해 사실을 알다 ||
산성비가 농작물을 고사시키다 산성비에 농작물이 고사하다
철수가 얼음을(이) 녹게 하다 얼음이 철수에 의해 녹다
어머니가 철수에게(가) 책을 읽게 하다 철수가 어머니에 의해 책을 읽다
위의 예문에서 보듯이 사동문의 경우는 각 유형에 따라 격이동의 양상이 조금씩 다르다.

먼저 사동 접미사 ‘이, 히, 리, 기, 우, 구, 추’에 의해 사동문이 되는 경우, 자동사나 형용사의 사동형과 타동사의 사동형이 격이동 양상이 다르다. 문장 1)에서 자동사 ‘녹다’는 사동 접미사 ‘이’와 결합하여 타동사 ‘녹이다’가 된다. 따라서 녹는 대상인 ‘얼음’은 동사 ‘녹이다’와 목적격 조사 ‘을/를’로 연결된다. 문장 3)에서는 타동사에 사동 접미사 ‘이, 히, 리, 기, 우, 구, 추’가 결합한 형태의 동사 ‘알리다’가 사용되었다. 이 경우에는 목적어 성분은 변화가 없고 주어와 부사어가 서로 바뀌었다. 이것은 동작성 명사에 접미사 ‘시키다’가 결합한 경우에도 적용된다. 이러한 격이동 양상을 정리하면 표 2와 같다.

<표 2> 사동 접미사에 의한 사동 복원 규칙
규칙 사동문 주동문
|| C1 || 자동사/형용사 + ‘이,히,리,기,우,구,추’, 동작성 명사+‘시키다’ ||
가 → 에 의해/에게/에
를 → 가
C2 타동사 + ‘이,히,리,기,우,구,추’, 동작성 명사+‘시키다’
가 → 에 의해
에게/에 → 가
다음으로 능동사 어간에 ‘게 하다’가 결합하여 사동문이 되는 경우에는 주동문의 주어를 그대로 쓰기도 하고, 목적어가 되거나 부사어가 되기도 한다. 이런 유형의 사동문을 주동문으로 복구하기 위한 규칙은 표 3과 같다.

<표 3> ‘게 하다’에 의한 사동 복원 규칙
규칙 사동문 주동문
C3 자동사/형용사 + ‘게 하다’
가 → 에 의해
가/를/에게 → 가
C4 타동사 + ‘게 하다’
가 → 에 의해
가/에게 → 가
  • 희망을 나타내는 보조 용언 ‘고 싶다’
보조 용언 ‘고 싶다’는 희망을 나타내는 보조 용언이다. 이 보조 용언이 문장의 서술부에 결합될 경우도 격이동이 발생한다. 다음의 예문을 보자. ‘고 싶다’가 결합한 형태 ‘고 싶다’가 결합하지 않은 형태
  1. 철수는(가) 사과가(를) 먹고 싶다 철수가 사과를 먹다
  2. 철수는(가) 그녀가(를) 보고 싶다 철수가 그녀를 보다.
예문에서 보듯이 보조 용언 ‘고 싶다’가 결합할 경우에는 문장 1)의 “철수는 사과가 먹고 싶다”와 같이 격이동에 의해 조사의 변화가 일어나기도 하고 “철수는 사과를 먹고 싶다”와 같이 그렇지 않기도 한다. 격이동이 발생할 경우는 표 4와 같은 규칙을 따른다.

<표 4> ‘고 싶다’에 의한 격이동 복원 규칙
규칙 결합한 형태 결합하지 않은 형태
G1 본용언 + 희망 보조 용언 ‘고 싶다’
가/는 → 가
가 → 를
  • 형용사의 동사화 보조 용언 ‘어 하다’
보조 용언 ‘어 하다’는 형용사에 결합되어 그 형용사를 동사화한다. 이 과정에서도 격이동에 의한 조사의 변화가 일어난다. 다음의 예문을 보자. ‘어 하다’가 결합한 형태 ‘어 하다’가 결합하지 않은 형태
  1. 내가 철수를 부러워한다. 나는 철수가 부럽다.
  2. 그가 이 책을 재미있어한다. 그는 이 책이 재미있다.
문장 1. 을 보면, 부러워하는 대상이 보조 용언 ‘어 하다’에 의해 주격 조사 ‘가’에서 목적격 조사 ‘를’로 변화함을 알 수 있다. 이와 같은 격이동에 의한 조사 변화 규칙은 표 5와 같다.

<표 5> ‘어 하다’에 의한 격이동 복원 규칙
규칙 결합한 형태 결합하지 않은 형태
G2 본용언 + 보조 용언 ‘어 하’
가/는 → 는
를 → 가
  • 피동사 + ‘어 주다’
특정 피동사에 보조 용언 ‘어 주다’가 결합한 경우에도 격이동이 발생한다. 이러한 현상은 모든 피동사에 대해 일어나는 것이 아니라 특정한 피동사에 대해서 발생하므로 다분히 어휘 의존적이다. 다음의 예문을 보자.
  1. 선생님이 음악을 들려 주었다.
  2. 선생님에 의해 음악이 들리다.
예문에서 보듯이 피동사 ‘들리다’와 보조 용언 ‘어 주다’가 결합할 경우, ‘들리다’의 대상이 되는 ‘음악’이 문장 1.에서는 주격 조사로 나타나는 반면 문장 2.에서는 목적격 조사로 나타난다. 이와 같은 격이동에 의한 조사 변화 규칙은 표 6과 같다.

<표 6> ‘어 주다’에 의한 격이동 복원 규칙
규칙 결합한 형태 결합하지 않은 형태
G3 본용언 + 보조 용언 ‘어 주다’
가 → 에 의해
를 → 가
하나 이상의 보조 용언이 나타날 경우
일반적으로 문장의 용언부에 하나 이상의 보조 용언들이 결합되어 나타나는 경우가 많다. 용언부에 결합된 보조 용언들 중에 격이동을 유발하는 보조 용언이 하나만 포함되어 있는 경우는 3.1.1의 단일 보조 용언 격이동 규칙을 따른다. 그리고 격이동을 유발하는 보조 용언이 두 개 이상 용언부에 나타날 경우는 각 보조 용언의 복원 규칙을 보조 용언이 적용된 순서의 역순서로 적용하면 된다. 용언부에 보조 용언이 하나 이상 나타나는 경우에 대해 자세히 살펴보자.

첫째, 용언부에 피동 보조 용언이 두 번 이상 나타날 경우는 임홍빈의 단회피동제약을 따른다[5]. 이것은 일단 피동문이 되면 다시 피동화하지 않는다는 제약이다. 다음의 예문을 보자. 1-1) 학생들이 이것을 쓰다 1-2) 이것이 학생들에게 쓰인다 1-3) 이것이 학생들에게 쓰이어진다 2-1) 그가 뿌리를 뽑다 2-2) 그에 의해 뿌리가 뽑히다 2-3) 그에 의해 뿌리가 뽑히어지다 문장 1-3)과 문장 2-3)은 용언부에 접미사 ‘이, 히, 리, 기’에 의한 피동과 접미사 ‘어지다’에 의한 피동이 모두 발생한 경우이다. 그러나 접미사 ‘이, 히, 리, 기’에 의해 피동화한 문장(1-2, 2-2)과 비교하여 조사의 변화가 없다. 이것은 접미사 ‘이, 히, 리, 기’에 의해 피동화가 되고, 접미사 ‘어지다’가 피동화된 상태를 강조한다고 볼 수 있다.

이와 같이 이중 피동의 경우를 제외하고는 서술부에 적용된 보조 용언들의 역순서대로 각 단일 보조 용언 격이동 복원 규칙을 적용한다. 다음의 예문을 보자. 1-1) 철수에 의해 사실이 영희에게 알려지다. ↓피동 복원 규칙 P1 적용 1-2) 철수가 사실을 영희에게 알리다. ↓사동 복원 규칙 C1 적용 1-3) 철수에 의해 영희가 사실을 알다. 위의 예문에서 문장 1-1)은 사동 접미사 ‘리’와 피동 접미사 ‘아/어지다’가 함께 용언부에 나타난다. 따라서 피동 접미사 ‘아/어지다’에 의한 격이동 복원 규칙, P1과 사동 접미사 ‘리’에 의한 격이동 복원 규칙, C1을 순서적으로 적용하여 최종적으로 문장 1-3)과 같이 복원한다. 다음은 용언부에 격이동을 유발하는 보조 용언이 하나 이상 발생하는 경우 격이동 복원 과정을 나타낸 것이다. 2-1) 그는 어머니를 보고 싶어 한다. ↓‘어 하다’ 복원 규칙 G2 적용 2-2) 그는 어머니가 보고 싶다. ↓‘고 싶다’ 복원 규칙 G1 적용 2-3) 그는 어머니를 보다. 3-1) 그가 철수를 의사에게 치료받게 하다. ↓사동 복원 규칙 C3 적용 3-2) 그에 의해 철수가 의사에게 치료받다. ↓피동 복원 규칙 P1 적용 3-3) 그에 의해 의사가 철수를 치료하다. 그림 1은 이와 같이 용언부에 격이동을 유발하는 보조 용언이 하나 이상 발생할 경우, 복원 규칙의 적용 순서를 그래프로 나타낸 것이다. (그림 1) 하나 이상의 격이동 발생시 규칙 적용 그래프

복합어의 중복된 형태

복합어는 그 형성 방식에 따라 파생어와 합성어로 구분된다.

합성어란 실질 형태소에 실질 형태소가 결합되어 만들어진 단어이다. ‘돌-다리, 손-발, 비-바람’ 등은 명사와 명사가 결합된 합성어이고, ‘맛-있다, 끝-내다, 성-나다’ 등은 명사에 용언이 결합되어 만들어진 합성어이다.

파생어란 실질 형태소에 형식 형태소가 결합되어 만들어진 단어이다. 즉 실질 형태소에 접두사나 파생 접미사가 결합되어 단어를 형성한다. ‘맨-손, 읽-기, 자랑-스럽다, 일-하다’ 등은 파생어의 예이다[5].

파생어와 합성어는 그 사용 형태에 있어서 여러 가지 중복된 현상이 나타난다. 조사가 생략된 형태로 단어가 형성되는 경우, 즉, ‘맛-있다, 약-올리다, 일-하다’ 등은 하나의 단일어로 나타나기도 하고, 조사가 추가되어 ‘맛이 있다, 약을 올리다, 일을 하다’ 등의 형태로 나타나기도 하고, 혹은 조사가 생략되어 ‘맛 있다, 약 올리다, 일 하다’ 등의 형태로 쓰이기도 한다.

말뭉치에서 이러한 복합어에 대한 정보를 추출하고자 할 때, 위의 세 가지 형태가 통일되어 하나의 형태로 추출이 된다면 자료 희귀 현상을 어느 정도 감소시킬 수 있다. 복합어의 중복된 형태를 통일하기 위한 규칙은 표 7과 같다.

<표 7> 복합어의 중복 현상 통일을 위한 규칙
규칙 중복된 형태 통일된 형태
B1 동작성 명사와 동사 파생 접미사 ‘하다’의 결합
동작성 명사+‘하다’ 동작성 명사+목적격 조사 [sp] ‘하다’ → 동작성 명사+‘하다’ 동작성 명사 [sp] ‘하다’
B2 명사와 용언의 결합
명사+용언
명사+목적격 조사/주격 조사 [sp] 용언 → 명사+용언
명사 [sp] 용언
표 7에서 기호 [sp]는 띄어쓰기에 해당한다.

접속문의 생략된 주어 복구

둘 이상의 문장이 연결될 때 특정 연결 어미는 동일 주어 제약을 따른다. 다음의 문장을 보자.
  1. 책을 읽으려고 철수는 도서관에 갔다.
위의 예문에서 의도를 나타내는 연결 어미 ‘려고’는 동일 주어 제약을 따른다. 따라서 위의 문장은 “철수는 책을 읽다”와 “철수는 도서관에 갔다”라는 두 문장이 의도를 나타내는 연결 어미 ‘려고’에 의해 연결되어 있는 형태이다. 표층적인 문장 분석에서는 “철수는 책을 읽다”와 같이 접속문에서 생략된 주어를 복구해 내지 못한다. 말뭉치의 정규화 과정에서는 이와 같이 동일 주어 제약을 적용할 수 있는 접속문의 경우 생략된 주어를 복구해 낸다. 동일 주어 제약을 따르는 연결 어미는 다음과 같다.
  1. 인과 관계를 나타내는 ‘-느라고’ 접속
  2. 의도 관계를 나타내는 ‘-려고, -고자, -러’ 접속
  3. 순차 관계를 나타내는 ‘-고(서)’ 접속
선행문의 주어와 서술어가 주어선행문, 서술어선행문이고, 후행문의 주어와 서술어를 주어후행문, 서술어후행문이며 동일 주어 제약을 따르는 연결 어미를 어미동일주어 라 할 때, 규칙은 표 8과 같다.

<표 8> 주어 복구 규칙 규칙 복구 전 복구 후 S1 주어선행문 서술어선행문 어미동일주어 서술어후행문 → 주어선행문 서술어선행문 어미동일주어 주어선행문 서술어후행문 S2 서술어선행문 어미동일주어 주어후행문 서술어후행문 → 주어후행문 서술어선행문 어미동일주어 주어후행문 서술어후행문

말뭉치 정규화 시스템

사전 구성

피동과 사동에 의한 격이동 복원을 위해 동사, 형용사의 피동/사동 사전을 먼저 구성한다. 사전은 말뭉치로부터 반자동적으로 구축하는데 그 과정은 다음과 같다.
  1. 품사가 부착된 말뭉치로부터 모든 동사, 형용사를 추출한다. 본 논문에서 이용하는 말뭉치는 용언에 대한 품사가 동사와 형용사, 동작성 명사 - 동사 파생 접미사, 상태성 명사 - 형용사 파생 접미사 등으로 구분되어 부착된다.
  2. 추출된 모든 동사, 형용사 집합에서
    1. 동작성 명사 + 동사 파생 접미사 ‘하다’의 형태와 동작성 명사 + ‘받다, 되다, 당하다, 시키다’ 형태가 함께 있는 경우는 이들을 피동, 사동으로 등록한다.
예 : 납득하다, 납득되다, 납득시키다 → 납득하다
  1. 동사, 형용사 형태와 동사, 형용사 어간 + ‘이, 히, 리, 기, 우, 구, 추’ 형태가 함께 있는 경우는 이들을 피동, 사동으로 등록한다.
예 : 낮다, 낮추다 → 낮다 앉다, 앉히다 → 앉다
  1. 2.2에 의해 자동으로 피동, 사동형을 찾을 경우 다음과 같은 에러들이 발생한다.
    1. 잘못된 피동, 사동형 추출 : (가다, 가리다), (감다, 감추다)
    2. 피동, 사동형이 하나 이상인 경우 : (끼다, 끼이다), (끼다, 끼우다)
    3. 동사 원형이 하나 이상인 경우 : (듣다, 들리다), (들다, 들리다), (갈다, 갈리다), (가르다, 갈리다)
    4. 원형 복구가 더 어색한 경우 : (밝다, 밝히다)
이와 같은 형태의 에러는 사람에 의해 제거된다. 에러를 제거한 뒤 동사와 형용사의 피동/사동 사전을 완성한다. 사전 표제어로는 피동, 사동형이 되며 이러한 피동, 사동형이 말뭉치에 나타났을 경우 이를 원형으로 복구하기 위한 동사 원형과 복구를 위한 규칙 정보가 사전 정보가 된다. 특히 3-3과 같이 동사 원형이 하나 이상인 경우는 용언에 의해서 결정할 수 없으므로 사전에 별도로 표시하여 문맥을 고려하여 사람이 나중에 결정할 수 있도록 한다. 사전 구성은 다음과 같다. 사전 정보 사전 표제어 복원 원형 복원 규칙 낮추다 낮다 C1 납득시키다 납득하다 C2 납득되다 납득하다 P1

규칙 적용 순서

말뭉치 정규화가 필요한 현상이 한 문장에 하나 이상 나타날 경우 각 규칙간 적용 순서가 존재한다. 그 적용 순서는 그림 2와 같다. 문장의 주어 복구 복합어의 중복 현상 통일 격이동에 의한 조사 변화 복원 (그림 2) 규칙 적용 순서 즉 격이동에 의한 조사 변화 복원을 하기 전에 문장의 주어를 복구해야 한다. 복구된 주어가 격이동 복원에 참여할 수도 있기 때문이다. 마찬가지로 격이동 복원 전에 복합어의 중복 현상을 통일해야 한다. 즉, ‘냉동을 시키다’를 ‘냉동시키다’로 통일시켜야 ‘냉동하다’로의 격이동 복원이 가능하게 된다. 그리고 복합어의 중복 현상은 ‘맛이 있다-맛있다’와 같이 주어-서술어 관계에서도 발생하므로 복합어 중복 현상 통일 전에 문장의 주어를 먼저 복구한다. 하나 이상의 정규화 규칙을 적용해야 하는 예를 들어 보자. 1-1) 수확을 늘리고자 농민들이 무척 애를 쓴다. ↓ 문장의 주어 복구 1-2) 농민들이 수확을 늘리고자 농민들이 무척 애를 쓴다. ↓ 복합어 중복 현상 통일 1-3) 농민들이 수확을 늘리고자 농민들이 무척 애쓴다. ↓ 격이동 복원 1-4a) 농민들에 의해 수확이 늘다. 1-4b) 그러고자 농민들이 무척 애쓴다. 2-1) 아들에게 공부를 시키느라고 그는 힘들었다. ↓ 문장의 주어 복구 2-2) 그는 아들에게 공부를 시키느라고 그는 힘들었다. ↓ 복합어 중복 현상 통일 2-3) 그는 아들에게 공부시키느라고 그는 힘들었다. ↓ 격이동 복원 2-4a) 그에 의해 아들이 공부하다. 2-4b) 그는 힘들었다.

말뭉치 정규화 실험

본 논문에서는 격이동 복원에 대한 실험과 복합어 중복 현상 통일에 대한 실험을 수행하였다. 격이동의 복원과 복합어의 중복은 구축된 사전과 규칙에 의해 자동으로 이루어지며, 이 결과는 다시 전문가에 의해 검토, 수정되어진다.

말뭉치

본 논문에서 사전 구성과 정규화 실험에 이용한 말뭉치는 한국과학기술원에서 작성한 “KAIST 말뭉치”이다[3]. 이 말뭉치는 약 20만 어절로 구성되어 있으며 신문 사설, 국민학교 교과서, 소설, 수필 등의 장르를 포함하고 있는, 품사가 부착된 것이다. 말뭉치의 품사 부착에 이용된 한국어 품사 체계는 언어학적인 측면을 고려하여 분류된 [4]를 이용했다. 이 품사 체계는 자동적인 방법에 의한 것이 아니며, 이미 언어학자들이 제시한 여러 분류 체계와 실제의 예문을 참조하여 분류된 것이다. 말뭉치나 품사 체계에 대한 자세한 설명은 [3,4]를 참고하기 바란다.

격이동 복원에 대한 실험

격이동 복원에 의한 자료 희귀 문제 감소 정도를 실험해 보았다. 격이동의 대상은 다음과 같이 동사, 형용사에 대한 피동/사동 사전에 등록되어 있는 피동과 사동형이다. 피동형 1) 능동사 어간 + 피동 접미사 ‘이, 히, 리, 기’ 2) 동작성 명사 + ‘되다’, ‘당하다’, ‘받다’ 사동형 1) 능동사 어간 + ‘이, 히, 리, 기, 우, 구, 추’ 2) 동작성 명사 + ‘시키다’ 이들은 피동/사동 사전에 등록되어 있으므로 말뭉치로부터 이들이 포함된 구문 관계에 대한 정보를 추출하고자 할 때, 사전에 등록되어 있는 복원 규칙에 의해 원형으로 복원한다. 복원한 결과 동사, 형용사의 개수가 5047개에서 14% 줄어든 4363개가 되었다. 자료 희귀 문제에 대한 해결 정도를 살펴 보기 위해 적은 빈도를 나타내는 동사, 형용사의 복원하기 전과 후의 빈도수 차이를 실험해 보았다. 표 9에서 살펴볼 수 있듯이 빈도수가 8 이하로 나타나는 동사, 형용사의 개수가 최고 22%에서 최소 10.5% 정도의 감소함을 볼 수 있다.

결론적으로 격이동 복원에 의해 동사, 형용사의 개수가 14% 줄어 들었고, 빈도수가 낮은 동사, 형용사의 개수도 줄어든 효과가 있다. 이는 자료 희귀 문제를 감소시킨 것이다. <표 9> 격이동 복원 실험 결과
빈도수 복원 전 복원 후 줄어든 정도
1 1935 1509 22.0%
2 792 702 11.4%
3 432 355 17.8%
4 304 271 10.9%
5 219 196 10.5%
8 89 79 11.2%

복합어의 중복 현상 통일에 대한 실험

중복된 사용 형태를 보이는 복합어는 어휘 의존적이기 때문에 말뭉치로부터 다음과 같은 과정을 거쳐서 추출하고, 이들에 대해 통일 규칙을 적용하였다. 1) 말뭉치로부터 모든 동사, 형용사의 집합을 구한다. 2) 말뭉치로부터 (명사, 목적격 조사,‘하다’) 패턴과 목적격 조사가 생략된 형태인 (명사, ‘하다’) 패턴, 그리고 (명사, 목적격 조사/주격 조사, 용언) 패턴과 (명사, 용언) 패턴에 해당하는 모든 예문을 추출한다. 3) 추출한 예문으로부터 명사+‘하다’, 명사+용언 패턴의 예문을 만들어 1)에서 구한 동사, 형용사 집합에 있는지 체크한다. 4) 있다면 이는 중복되어 나타나는 현상이므로 규칙 B1, B2에 의해 원형으로 복구한다.

복합어에 대한 실험 대상은 동작성 명사가 동사 파생 접미사 ‘하다’와 복합어를 이룰 때 나타나는 중복 현상이다. 말뭉치로부터 이와 같은 중복 현상을 나타내는 592개의 예로부터 통일된 유형 277개를 추출하였다. 이들에 대해서도 자료 희귀 문제에 대한 해결 정도를 살펴 보기 위해 적은 빈도수를 나타내는 복합어의 중복 현상을 통일하기 전과 후의 빈도수 차이를 실험해 보았다. 실험 결과는 표 10과 같다. 말뭉치에서 한 번 이상씩 나타난 중복된 현상들을 하나의 현상으로 통일하는 것이므로, 복합어를 하나의 형태로 통일한 것에 대해서는 빈도수가 한 번인 경우는 없어지게 된다. 표에서 보듯이 빈도수가 10 이하로 나타나는 복합어들이 최고 62.7%에서 최소 33.3% 정도의 감소함을 볼 수 있다.

결론적으로 복합어의 중복된 현상을 통일함에 의해 복합어의 개수가 줄어 들었고, 복합어들의 빈도수가 전체적으로 높아졌다. 이는 자료 희귀 문제를 감소시킨 것이다.

<표 10> 복합어의 중복 현상 통일 실험 결과
빈도수 중복 현상 통일 전 중복 현상 통일 후 줄어든 정도
1 242 0 100%
2 99 37 62.7%
3 44 28 36.4%
4 42 29 31.0%
5 28 19 32.2%
8 16 8 50%
10 12 8 33.3%

결론

본 논문에서는 품사가 부착된 말뭉치로부터 구문 관계 정보를 추출하고자 할 경우 필요한 말뭉치 정규화에 대해 살펴 보았다. 말뭉치 정규화는 말뭉치로부터 잘못된 구문 관계 정보의 추출을 막아주고 자료 희귀 문제를 어느 정도 감소시키는 효과가 있다.

먼저 한국어의 문법적 특징을 반영하는 정규화 범위를 결정하였다. 구문 관계 정보는 성분의 문법적 기능을 결정하는 조사와 관계가 많으므로 정규화 범위는 격이동에 의한 조사 변화의 복원, 복합어의 중복된 현상 통일, 접속문에서의 주어 복구 등으로 결정하였다. 범위를 더 넓힐 수 있으나 그렇게 할 경우는 정규화 결정이 애매하게 되어 자동으로 할 경우 많은 오류를 포함하게 된다.

정규화 범위를 결정하고 정규화 규칙을 설정하였다. 그리고 이러한 정규화 규칙을 적용하여 간단한 실험을 수행하였다. 실험 결과 말뭉치의 정규화가 자료 희귀 문제를 감소시키는 효과가 있음을 증명하였다. 앞으로 좀더 다양한 실험으로 말뭉치 정규화의 유용함을 실험해보고자 한다. 참고 문헌 [1] M. P. Marcus. B. Santorini, and M. A. Marcinkiewicz, Building a Large Annotated Corpus of English: The Penn Treebank, Computational Linguistics, vol. 19, no. 2, pp. 313-330, 1993. [2] 남기심, 고영근, 표준 국어문법론, 1995. [3] 김재훈, 김길창, 한국어에서의 품사 부착 말뭉치의 작성 요령: KAIST 말뭉치, 한국과학기술원, 기술 보고서, CS/TR-95-99, 1995. [4] 김재훈, 서정연, 자연언어 처리를 위한 한국어 품사 태그, 한국과학기술원, 인공지능연구센터, 기술 보고서, CAIR-TR-94-55, 1994. [5] 이주행, 현대국어문법론, 1993. [6] 최기선, 한국어 해석을 위한 격이동 패턴의 고찰, 인지과학, 민음사, 1989. C가 B에게 A를 CP2 A가 B에 의해 PP B가 C에 의해 A를 CP1/CP2 B가 A를(이) CP2 B에 의해 A가 PP A가 B에 의해 adj/vi P1,P2 P1,P2 C3 C3 C1,C3 자동사/형용사에 대한 피동/사동 복원 그래프 D가 C가 B에게 A를 CP2 A가 B에게 C에 의해 PP C가 B에게 A를 CP1,CP2 C가 B에게 A를 vt C가 B에게 A를(이) CP2 C에 의해 A가 B에게 PP C에 의해 B가 A를 vt P1,P2 P1,P2 C4 C4 C2,C4 타동사에 대한 피동/사동 복원 그래프 adj : 형용사 PP : 피동사 vi : 자동사 CP1 : 능동사 어간 + ‘이, 히, 리, 기, 우, 구, 추’, vt : 타동사 동작성 명사 + ‘시키다’ CP2 : 능동사 어간 + ‘게 하다’ (그림 1) 하나 이상의 격이동 발생시 규칙 적용 그래프