퀵바


강호정담

우리 모두 웃어봐요! 우리들의 이야기로.



작성자
Lv.60 카힌
작성
16.08.18 17:29
조회
2,219

기글하드웨어에서 퍼왔습니다.

이분도 다른 곳에서 퍼온 모양이더군요.

___

___

우리나라에서 포털이 어떤 역할을 하는가,

대기업과 중소기업간의 윤리는 어떤가

 

뭐 여러 가지를 생각하게 하는 내용입니다.

전문 그대로 옮겨옵니다.

 

 

 

(8월 15일자 첫번째 글)

 

=========

 

요즘 마음이 착잡합니다. 그러면서도 안타깝고요. 한국어맞춤법검사기 개발 26년, 그런데 몇 년 전부터 네이버가 맞춤법 검사기를 공개했습니다. 그런데 우리 맞춤법 검사기를 참고하는 것은 좋은데 거의 베끼더군요. 3년 동안 베타로 두고요. 맞춤법 검사기 규칙 하나 만드는 데 하루 걸립니다. 그러나 다른 사람이 만든 것 보고 넣는 데는 1분도 안 걸립니다. 우리가 새 규칙 넣으면 곧 추가됩니다. 특정한 맞춤법 검사기의 결과를 대용량 자료에 돌려 비교하면 6개월이면 거의 따라잡습니다. 빅데이터 처리의 슬픔이랄까요. 더구나 맞춤법 검사기는 맞춤법이 틀린 것을 고치므로 고쳐야 하는 유형을 찾는 것이 어렵지, 유형만 알면 쉽게 만들 수 있습니다.

그런데 드디어 다음마저 공개했네요. 그런데 듣기로는 참고만 했다고 했지만, 우리 것과 네이버 것 그대로 베꼈습니다. 물론 우기겠죠. 참고는 했지만, 자기들의 아이디어도 있다고…. 그리고 다음은 아예 API도 공개했습니다. 심하게 말하면 도둑질해서 선심 쓰는 의적인지도 모르죠. 남이 한 것을 훔치면서 부끄럼 모르고 자랑하는 현실……. 김진형 교수님께서 소프트웨어 교육과 육성해야 한다고 외치시지만……. 우리나라 소프트웨어 업계 장래성 없습니다.

10년 전쯤 생각이 나네요. 네이버 과장이 와서 맞춤법 검사기 네이버에서 서비스해줄 테니 비용을 내라고요. 네이버가 도우면 장사가 잘될 거라고요. 웃었더니 6개월 후쯤 무료로 해주겠다고요. 그리고 6개월쯤 지나자 연 5천만 원, 그 이상이면 안 되니 그렇게 하지더군요. 그래서 화가 나서 월 5천만 원은 내야 한다. 거기에 너희 회장(이해진)이 와야 한다고 화냈습니다. 그러니 곧 소문나더군요. 부산대학이 엄청난 액수를 불렀고 무례하다고요. 다음도 비슷했고요.

다른 예로 로마자 변환기 만들었더니 네이버도 곧 만들더군요. 그러더니 무료로 API 공개해서(상업적 사용 가능) 그나마 진행되던 은행과 계약 모두 취소되었습니다. 현재 맞춤법 검사기 사용자 99%가 무료 사용자입니다. 겨우 1년 수입이 2억 정도고 그래도 어렵게 개발하고 있습니다. 두 기업 중 한 기업은 우리 시스템 참고용 자료 조사(리버스 엔지니어링(?))에만 8명 투여했다네요. 그 비용이면 우리 1년 수입 두 배입니다. 훔치고도 훔쳤다고 못 느끼는 분위기에서는 소프트웨어 산업은 살지 못합니다. 사실 우리처럼 도움말을 8만 종류 이상으로 다양하게 제공하면서 각종 오류에 대해 분석하는 것은 신념 없이는 불가능합니다. 그러나 남의 것 보고 비교하면서 개발하기는 쉽습니다. 오히려 네이버와 다음은 우리보다 다양한 사전, 고유명사 따위를 보유해 훨씬 유리합니다. 개발비나 환경도 좋고요. 직원들 능력도 자부심도 (주)나라인포테크와는 비교가 안 되지요.

현재 방송사와 신문사에서만 매출이 있습니다. 그런데 여기는 오류 자체만 찾으면 됩니다. 도움말이 절대적으로 필요하지는 않습니다. 그러나 일반인이나 학생은 다릅니다. 두 업체는 도움말을 제공하지 않습니다. 사실 이 부분은 따라오기 어려울 겁니다. 다음은 규칙 처리 방법마저 우리와 거의 같습니다. 한 1년 버텨 보다 어떻든 결론을 낼 생각입니다. 개발을 중지할지 계속할지…….

광복절에 연구실에 와서 일하다 한심해 글을 써봅니다.

 

=========

 

이 글이 퍼지면서 이런저런 얘기가 있어서, 다음 글이 또 올라왔습니다.

 

(8월 16일자 두번째 글)

 

=========

 

여러분의 따뜻한 격려 고맙습니다. 어제 약간 흥분한 상태라 두서없이 쓴 것 같아 정리하여 씁니다. 끝까지 읽어 보시면 도움이 될 겁니다. 거의 잠을 못 잤네요.

내용은 (1) 포털은 맞춤법검사기(응용시스템)는 만들면 안 되나? (2) 부산대 시스템의 현황은? (3) 6개월 만에 최고 맞춤법검사기 만드는 방법 (4) 마무리 순입니다. 제가 6개월 만에 만드는 법을 제시하는 이유는 부산대가 23년을 만든 시스템이면 다른 곳이 그렇게 쉽게 따라올 수 있느냐는 의문을 가지는 분이 있으시기 때문입니다.

1. 포털은 맞춤법검사기를 만들면 안 되나?

아닙니다. 당연히 만들어 쓸 수 있습니다. 물론 외주하여 기술 발전에 이바지하면 좋겠지만, 자체에서 만들어 쓰는 것도 좋습니다. 그러나 그것을 자체에서만 쓰지 않고, 무료로 API를 공개하여 사용하게 하여 다른 업체나 개발자의 싹을 잘라버려서는 안 됩니다. 그 점은 네이버는 잘 알고 있습니다. 맞춤법검사기의 API는 따로 제공하지 않습니다. 로마자변환기는 저희가 상업적으로 판매하고 있는 것을 모르는 것 같습니다. 은행에 판매하는데 네이버가 무료(상업적 포함)로 제공하여 모든 계약이 취소되었습니다.

다음은 맞춤법검사기의 API를 완전히 공개했습니다. 더구나 부산대 시스템을 상당 부분 역공학을 했음에도요. 국내 소프트웨어업계를 보호하려면 포털이 자체에서 사용하는 것을 넘어 개발한 시스템을 무료로 공개하는 것은 막아야 합니다. 빵을 무료로 나누어주면 재료비라도 들지만, 응용시스템은 거의 비용이 안 들면서 다른 개발업체는 모두 죽입니다. 저희 시스템을 쓰려면 포털에서 찾아야 하며, 그 과정에서 포털 통신량이 늘지만, 저희에게 오는 것은 없습니다.

2. 부산대 시스템의 현황은?

저희 시스템의 장점은 현재 35MB밖에 메모리를 쓰지 않는 점입니다. 아마 이 부분은 아무도 따라올 수 없을 겁니다. 문맥에 따라 오류를 고치는 규칙이 2만 3천 개쯤 됩니다. 오류 패턴도 20만 개쯤 되고요. 현재 일반 PC 1대로 하루에 15만 건 정도의 문서를 처리하고 있으며, 입시 철과 입사 시험 기간에는 하루에 40만 문서 이상을 처리합니다.

도움말이 다양하게 제공됩니다. 그러나 이것도 어느 정도 비용만 들이면 쉽게 따라올 수 있습니다. 오히려 다른 시스템을 보고 따라 만들면 더 체계적이겠지요. 사실 그렇기도 하고요.

3. 6개월 만에 최고 맞춤법검사기 만드는 방법

방법은 그리 어렵지 않습니다. 그 전에 완벽한 맞춤법검사기는 없다는 점과 일반 사용자가 틀리는 철자 오류 유형은 아주 제한됨을 말씀드리겠습니다. 따라서 저희가 만든 규칙 10% 정도(2,000개)가 95% 오류를 고치고, 나머지가 5%를 고친다고 보면 됩니다.
만드는 방법은 3단계이며, 각 2개월이 필요합니다. 이 방법은 지도검색서비스 등 다양한 서비스의 역공학에 활용할 수 있습니다. 그런데 이것이 법적 또는 도덕적 판단은 알아서 하십시오.

(1) 멍청한 맞춤법검사기 만들기

먼저 형태소 분석기를 이용하여 대충 맞춤법검사기를 만듭니다. 단, 규칙과 도움말 따위는 기존 맞춤법검사기를 참고로 완벽히 작동하게 합니다. 부산대 시스템의 구성 원리는 논문에 나와 있으니 그대로 만들면 됩니다. 그리고 몇 가지 중요한 규칙을 적용하여 검증하십시오. 형태소분석기를 가지고 있다면 아마 2개월이면 만들 겁니다. 특히 맞춤법검사기는 등록된 단어가 중요합니다. 표준국어대사전이나 기타 사전의 단어를 찾아서 다른 맞춤법검사기에 돌리세요, 단 명사는 ‘-을/를(목적격 조사)’을 붙여서 돌리세요. 허용되면 사전에 넣고, 아니면 적합한 단어만 골라서 추가하세요. 다양한 사전을 가진 곳이라면 이것으로 다른 시스템을 앞섭니다.

(2) 다른 맞춤법 검사기로 똑똑하게 만들기

이제 대용량 말뭉치(아마 신문 1년 치면 충분할 겁니다)를 구해서 다른 맞춤법검사기에 돌려서 오류와 도움말을 모으세요. 모은 오류를 새로 만드신 맞춤법검사기에 돌려서 오류로 판단하고 대치어가 같으면 제거하세요, 그리고 오류 유형에 따라 분류하세요. 아르바이트생을 동원해 그 결과는 분석하여 다른 맞춤법검사기의 결과가 옳으면 내용을 추가하고, 아니면 바르게 수정하여 반영하세요.

제가 95% 오류를 반복적이라 했지요. 따라서 이 정도면 원시스템의 성능을 거의 따라잡았을 겁니다. 물론 5% 정도는 차이가 있겠지만, 원시스템의 오류도 반영했으므로 오히려 좋을 겁니다. 
예를 ‘친구밖에 없다’와 ‘친구 밖에 있다’처럼 ‘밖에’가 조사인 경우와 명사인 경우를 구별하는 규칙을 찾아서 만드는 데는 열흘 이상 걸립니다. 그러나 부산대 시스템을 돌려보면 반복해서 뒤에 ‘없다’가 나오면 붙이고, ‘있다’가 나오면 땔 겁니다. 제가 봐서는 10분이면 만듭니다. 단, 문제점은 규칙이 과적용될 수 있다는 점입니다.

어떻든 더 똑똑한 맞춤법검사기가 만들어졌습니다. 당연히 여러 맞춤법검사기를 사용했다면 더 좋은 결과가 나올 겁니다.

이 방법을 원천적으로 막을 수는 없지만, 막는 방법이 있습니다. 하루에 몇 건 이상을 동일 사이트에서 검사하지 못하게 하는 방법입니다. 또 아주 빠르게 재검사를 하면 못 하게 합니다. 부산대처럼 검사 결과 오류를 정리해서 제공하지 않으면 됩니다. 두 단어가 연계되어 오류가 만들어졌을 때 오류 부분만 보여주고, ‘마를린 몬로’처럼 틀렸을 때 각각 오류를 따로 나오게 하면 됩니다. 실제 부산대는 이런 방어장치가 전혀 없고, 어떤 시스템은 철저합니다. 부산대 시스템의 모듈을 사용하는 회사에서 몰래 가져와 써도 됩니다.

오비이락인지 모르지만 지난 몇 달간 부산대 시스템이 속도가 늦어졌다는 항의가 자주 있었습니다. 우리말배움터를 보시면 알 수 있을 겁니다(올해 4월 7월). 저희 오류 찾는다고 엄청나게 고생했습니다. 그런데 이유 없이 며칠 후부터 해결되었습니다. 이 부분은 짐작이지 증명된 것은 아닙니다.

(3) 만든 시스템을 검증하고 마지막 금상첨화

이제 꽤 똑똑한 시스템이 만들어졌습니다. 그러나 규칙이 과적용될 수 있습니다. 대용량 말뭉치를 새로 만든 시스템에 돌리세요. 그리고 틀렸다고 하는 것을 모두 모아서 다른 맞춤법검사기에 돌리세요. 다른 시스템과 같은 결과가 나온 것은 제거하고, 나머지를 직접 검증하세요. 규칙이 과적용되었으면 고치고, 아니면 다른 맞춤법검사기 오류이니 뿌듯해하세요…. 다른 어떤 맞춤법검사기보다 최소한 5%는 좋은 맞춤법검사기를 완성했습니다.

4. 마무리

현재 한국어 맞춤법검사기 성능은 부산대가 약간 앞서고, 다음과 네이버 순입니다. 그 차이는 크지 않습니다. 그래서 저희와 계약하려던 일부 업체가 다음이 공개한 API 사용을 고려하고 있다고 합니다.
올해 3월만 하더라도 다음 시스템은 맞춤법검사기라 할 수준이 아니었습니다. 그런데 벌써 이 수준이면 대단한 능력입니다. 다음 맞춤법검사기 개발자가 부산대를 쉽게 따라잡았다고 뿌듯해한다는 소문을 들었습니다. 20년 이상 개발한 시스템을 단번에 따라잡았으니까요. 계속 두 회사 상황이 들리니 짜증이 납니다.

물론 따라잡히지 않은 부분도 있습니다. 그리고 준비해둔 ‘산의 한 수’도 있습니다. 메모리를 1GB쯤 더 쓰면 성능을 크게 개선할 수 있습니다. 논문으로는 발표되었고요. 그런데 문제는 ‘신의 한 수’는 두고 나면 더는 ‘신의 한 수’가 아니라는 거죠. 한 달이면 따라잡힐 거거든요. 다른 곳에서 아이디어 내면 흉내(표절) 내는 것이 편하겠네요. 참, 대용량 자료를 검사하는 것을 포털이 막았네요. 진정성을 인정해달라고 할 수도 없네요. 올해는 직원 5명 월급 주기도 빠듯하네요, 사실 버티기도 어렵습니다. 하소연은 안 하려 했는데요. 여러분 격려 덕분에 힘을 내봅니다만, 내년 한글날쯤이면 여론몰이 한번 하고 편하게 지낼 수 있을 것 같습니다.

(넋두리로 맞춤법검사기 포기하게 되면 우리나라 전자지도를 구매하고, 포털에 주소만 넣으면 다양한 정보 나오니 그거 자동으로 가져와 참고해서 아르바이트생 동원해 온갖 정보 추가해서 판매나 할까 합니다. 참, 자동으로 못 가져오게 하면 해커 동원해 10만 개쯤 분산해 접근하면 되겠네요. 그때 훌륭한 해커 추천해주세요.)

긴 글 읽어주셔서 고맙습니다.



___

개발해서 사용하고 오픈한다는 개념을 전 원론적으로는 반대하지 않습니다. 그러나 그것은 선별적이어야 할 것입니다.  API는 선의로 사용하면 참으로 유용하나 위의 글의 경우에는 네이버와 다음의 손을 들어 줄 수가 없군요.



Comment ' 10

  • 작성자
    Lv.69 야옹흥
    작성일
    16.08.18 17:43
    No. 1

    참.. 개같네요. 파렴치하다..

    찬성: 0 | 반대: 0

  • 작성자
    Lv.15 신승욱
    작성일
    16.08.18 18:33
    No. 2

    안타깝고 분노스럽습니다. 더 문제는 일이 좋은 방향으로 해결될 가능성이 적다는 것입니다.

    노력과 능력에 정당한 대가를 주지 않고, 강자의 부당한 횡포를 막지 못 하는 사회의 미래는 밝을 수 없습니다.

    찬성: 0 | 반대: 0

  • 작성자
    Lv.38 강태양
    작성일
    16.08.18 19:33
    No. 3

    처음에 부산대 사용하다가 Daum 검사기가 빠르고 편해(사전과 페이지 연동되어 있으니) 그것으로 바꾸었는데, 로직이 똑 같아서 부산대 쪽을 Daum에서 임대해 사용할 것이라고 짐작한 적이 있습니다.
    리버스였다는 것은 정말 몰랐고, 사실이라면 정말 어이가 없군요.
    참, 안타깝네요....

    이런 좋은 기술은 국가가 인수해서 초기 개발자들에게 향후 발전과 관리를 맡기고(생계와 명예를 주고) API는 무류로 공개하는 것이 옳다고 봅니다.
    국립국어원! 정신 좀 차려라...

    찬성: 0 | 반대: 0

  • 작성자
    Lv.19 데스마치
    작성일
    16.08.18 19:40
    No. 4

    이런 망할 것들 끝까지 우기네. 한 번 된통 당해봐야 정신 차릴 듯

    찬성: 0 | 반대: 0

  • 작성자
    Personacon 묘한(妙瀚)
    작성일
    16.08.18 19:48
    No. 5

    심심이가 MSN에서 작게 시작할때 거기서 심심이에게 대화문 입력 열심히 해줬었는데
    무언가에 휘말리고 휘청하더니 심심이도 어느순간 대기업의 것이 되어있더랬죠
    이 나라에선 소프트웨어와 아이디어는 보호받지 못합니다.

    찬성: 0 | 반대: 0

  • 작성자
    Lv.18 글도둑
    작성일
    16.08.18 20:36
    No. 6

    맞아요. 맞춤법 프로그램은 정말 간단합니다.
    어려운게 아닙니다.
    오직 순수 패턴을 만들어서 교정 시키는 데이터가 중요하죠.
    어떤 뛰어난 알고리즘을 채용하는게 아니라, 순수 노가다로 만듭니다.
    [자동입력 완성 기능이란것도 비슷한데, 비슷한 단어 묶음을 노가다로 만드는 겁니다]


    참고로 리버스 엔지니어링이란 이런 겁니다.

    다른 사이트에서 생긴거를 봐요. 작동도 해봅니다.
    그걸 소스로 카피 하는게 아니라, 테스트를 한 결과를 바탕으로 역으로 만들어 보는 겁니다.

    모나리자를 보고 모나리자를 따라서 그리는 것과 같은 행위 입니다.

    하지만 소프트웨어의 특성상 짝퉁과 진퉁의 차별이 없죠.

    찬성: 0 | 반대: 0

  • 작성자
    Personacon 양사(樣師)
    작성일
    16.08.18 20:48
    No. 7

    외국처럼 중소기업에서 좋은 프로그램이나 아이디어를 개발하면...
    그 기업을 인수합병해주는 것이 가장 좋은 방법이죠.
    구글이 독점기업이고 말 그대로 안하는 일이 없을 정도로 문어발 운영을 하고 있죠.
    심지어 모기업 알파벳 만들면서 구글 같은 기업을 여러개 만들겠다고 선언함.
    한국이면 재벌기업의 문어발 확장이라고 욕을 먹겠지만...
    비교적 욕을 안 먹는 이유가 바로 다양한 분야에서 스타트 업 기업을 인수합병해서 창업을 돕고 이게 사업인지 아니면 자원봉사인지 정체성이 모호한 사업을 많이 하기 때문이죠.
    부산대 맞춤법 만드는 회사 정도는 네이버나 카카오 입장에서는 인수합병하는데 큰 돈이 들지도 않으면서 20년이 넘는 노하우를 얻을수 있는데...
    굳이 저런 무리한 수를 쓰는지 이해가 안가네요.

    찬성: 0 | 반대: 0

  • 작성자
    Lv.18 글도둑
    작성일
    16.08.18 21:46
    No. 8


    송곳에서 이런 말이 나오더군요.

    왜 불법을 저지르는 것일까요?

    여기서는 그래도 되니깐. 아무도 처벌을 하지 않으니깐. 어느 기업이 성인 군자라고 처벌도 안받는 법을 지키고 앉았어?

    찬성: 0 | 반대: 0

  • 작성자
    Lv.70 테사
    작성일
    16.08.19 01:13
    No. 9

    이러니 누가 이공계 가겠어요? 엔지니어는 이민만이 살 길이다는데.

    찬성: 0 | 반대: 0

  • 작성자
    Lv.92 지나가는2
    작성일
    16.08.19 12:38
    No. 10

    저런 윤리 의식도 없는 놈들이 나대니 기초 과학이든 응용 기술이든 발전할 수가 있나. 쓰레기들.

    찬성: 0 | 반대: 0


댓글쓰기
0 / 3000
회원가입

강호정담 게시판
번호 제목 글쓴이 날짜 조회
231994 한 소설 안에 두세 개의 이야기가 갈라지는 것, 어떻게 ... +32 Lv.51 한혈 16.08.18 1,491
231993 아이비아이의 만화같은 이야기 +1 Lv.60 카힌 16.08.18 1,155
231992 성폭행 위기 처한 엄마 구하고 죽은 '6세 아들' +9 Lv.43 Daon타이탄 16.08.18 1,781
» 부산대학교 맞춤법 검사기 개발사 이야기 +10 Lv.60 카힌 16.08.18 2,219
231990 창관유수 2년의 대장정 +2 Lv.60 카힌 16.08.18 1,187
231989 새로 나온 우주크기 동영상 +4 Lv.77 말린콩 16.08.18 1,548
231988 여기도 옛날같지가 않네요. 옛날에는 게시판이 하루에 3... +7 Lv.1 [탈퇴계정] 16.08.18 1,239
231987 통장 개설이 정말 힘드네요 +7 Lv.81 크림발츠 16.08.18 1,245
231986 컴퓨터를 구매하려합니다. +14 Lv.79 카나코 16.08.18 1,216
231985 이용자 제재 내역입니다. (2016.08.18) Personacon 정담지기 16.08.18 1,662
231984 내가 글을 못쓰는 이유를 알았다. +3 Lv.95 나이트오크 16.08.18 1,171
231983 멸망의 좌로 주인공이 나오는 소설이 뭔가요 +1 Lv.53 카이어 16.08.18 1,137
231982 약 19??유머사이트 돌아댕기다가.... +7 Lv.91 슬로피 16.08.18 1,091
231981 노트7를 예구했는데 아직도 못받았어요 +1 Lv.71 gtx460 16.08.17 1,131
231980 문피아 검색할때마다 +1 Lv.35 그리고. 16.08.17 1,226
231979 Krypteria랑 Epica 괜찮네요... +1 Personacon Azathoth 16.08.17 1,005
231978 미리보기는 어떻게 찾아야 하나? +3 Lv.42 산하련 16.08.17 1,123
231977 으아 컴사고싶네요. +9 Lv.91 슬로피 16.08.17 1,093
231976 결심했어요 +44 Personacon 히나(NEW) 16.08.17 1,511
231975 무형의 자산, 신용. +3 Lv.81 크림발츠 16.08.17 1,172
231974 여기 두산팬 없나요? +9 Lv.1 [탈퇴계정] 16.08.17 1,084
231973 쥬논세계관 지온(시르온)vs베리오스 누가이길까요? +11 Lv.11 활짝피어 16.08.17 1,387
231972 카카오스토리 소장권에 대해서 +8 Lv.96 아리수맨 16.08.17 1,351
231971 땅에 주인이 없어요. +8 Lv.77 말린콩 16.08.17 1,118
231970 전장의 화신 작가님 어디가셨나요? +8 Lv.99 엠생 16.08.17 1,206
231969 정치 이야기 아닙니다. 역사 이야기죠. +7 Lv.1 [탈퇴계정] 16.08.17 1,134
231968 탁구소설 쓰시는분 계신가요? +4 Lv.40 캡스 16.08.17 888
231967 하.... 오탈자 많은 소설 어떻게 보세요? +4 Lv.56 바른말 16.08.17 1,029
231966 그런대 지금 티파니가 중요한게 아니라 +1 Lv.63 가출마녀 16.08.16 1,009
231965 티파니 욕 못하겠어요 +5 Lv.63 가출마녀 16.08.16 1,247

신고 사유를 선택하세요.
장난 또는 허위 신고시 불이익을 받을 수 있으며,
작품 신고의 경우 저작권자에게 익명으로 신고 내용이
전달될 수 있습니다.

신고
@genre @title
> @subject @time