[AI 대화편 3] AI 자체를 처벌할 수 있을까?

AI 대화편 시리즈에서는 AI와 함께 다양한 주제를 탐구한다. 플라톤의 대화편처럼, 답을 바로 제시하지 않고 대화를 통해 합리적인 답(혹은 새로운 질문)을 찾아 나간다.

AI는 다양한 작업을 수행하며, 그 과정에서 ‘선택’을 한다. 이 선택은 인간의 선택과 다르게 작동할 수 있지만 비슷한 기능을 한다. 그런데 선택에는 책임이 따른다. 인간은 잘못된 선택을 하면 법적으로든 도덕적으로든 책임을 진다. 그리고 ‘처벌’은 그러한 책임의 대표적인 형태이다. 그렇다면 인간과 마찬가지로 결정을 내릴 수 있는 AI도 잘못을 저지르면 처벌할 수 있을까?

AI가 잘못을 저지르면 AI를 설계한 사람이나 사용한 사람이 처벌받는 것이 상식적이다. 하지만 AI에게 일종의 ‘행위 주체성’이 있고 어떤 일을 한 AI가 다른 AI와 구별된다면 잘못을 저지른 AI 자체가 처벌받는 것도 가능하고 필요할 수 있다.

AI의 행위에 대한 처벌 문제는 조금 복잡하다. 예를 들어 한 회사의 자율 주행 AI를 탑재한 자동차가 주행 중 사람을 쳤다고 해 보자. 운전석에 앉아 있던 사람이 미리 브레이크를 밟았다면 예방될 수 있는 사고였지만, 사고 당시 그 사람은 잠시 카톡을 확인하느라 피해자를 보지 못했다. 이 경우 AI·알고리즘을 설계한 회사, 그 AI를 자동차에 탑재한 회사(자동차 제조사), 운전석에 앉아 있던 사람 등 처벌의 대상을 정하기가 어렵다. 만약 AI 자체를 처벌할 수 있다면 그 자동차를 운전하던 AI도 처벌 대상 목록에 오를 것이다.

이번 대화에서는 이런 복잡한 처벌 대상 목록에서 누구를 얼마나 처벌할 것인지의 문제는 제쳐 놓고, AI 자체를 처벌할 수 있는지에만 초점을 맞추도록 하겠다.

사용 모델: Gemini 2.5 Pro (experimental)

나:

AI가 잘못을 저질렀을 때 AI 자체를 처벌할 수 있을까요?

AI:

흥미로운 질문이로군. AI가 '잘못'을 저지른다는 것은 어떤 의미인가? 그것이 인간이 잘못을 저지르는 것과 같은 의미라고 할 수 있겠는가?

나:

AI도 일종의 ‘선택’을 할 수 있다면, 그에 대한 책임이 따릅니다. AI가 어떤 선택을 내렸는데 그것이 나쁜 결과를 초래했을 때 잘못을 저지른 것으로 생각해 봅시다. 이때 선택을 내리는 과정은 인간과 다를 수 있겠지만, AI가 선택을 내렸다는 것은 사실입니다. 그렇다면 이런 경우 AI 자체를 처벌할 수 있을까요?

AI:

AI가 주어진 상황에서 특정 경로를 따르는 것을 '선택'이라고 부를 수는 있겠지. 하지만 그 선택이 인간의 의도나 자각을 동반한 선택과 같다고 할 수 있을까? 처벌이라는 것은 보통 잘못에 대한 책임과 비난 가능성을 전제로 하는데, 현재의 AI에게 그러한 책임을 물을 수 있다고 생각하는가?

나:

AI도 ‘더 나은’ 선택을 하려는 경향이 있지 않습니까? 그것을 일종의 의도로 볼 수 있습니다. 그리고 AI마다 부여된 목적이 있을 것입니다. 지금 중요한 것은 AI와 인간의 선택이 같은지가 아니라, AI 자체를 처벌할 수 있느냐입니다.

AI:

과연 AI가 '더 나은' 선택을 추구하도록 설계된 것이, 처벌을 정당화할 만한 '의도'라고 할 수 있을까? 설령 AI를 처벌한다고 가정해 보세. 그 처벌의 목적은 무엇이며, AI에게 어떤 영향을 미칠 수 있다고 보는가? 가령, AI가 그 처벌로 인해 자신의 행동을 '반성'하거나 '개선'할 수 있다고 생각하는가?

나:

처벌받는 사람이 그 처벌을 '신경 쓰지' 않아도 그 처벌은 의미 있을 수 있습니다. AI는 감응력(sentience)이나 욕구가 없으므로 어떤 처벌을 받든 신경 쓰지 않을지 모르지만, 처벌받았다는 사실이 인간들에게는 의미 있을 수 있습니다. 그리고 그 처벌은 AI의 문제를 교정하거나 AI 자체의 평판이 실추되는 등 다양한 방식으로 일어날 수 있습니다.

AI:

매우 흥미로운 관점이군. 처벌의 효과가 반드시 처벌받는 대상의 내적 경험에 국한되지 않고, 그것을 바라보는 인간 사회나 시스템에 영향을 줄 수 있다는 말이로군.

그렇다면, AI에 대한 '처벌'이라고 부르는 그 조치가 단순히 오작동하는 기계를 수리하거나 폐기하는 것과 본질적으로 어떻게 다르다고 할 수 있겠는가? 인간 사회의 정의감을 만족시키거나 유사한 AI의 오작동을 예방하기 위한 목적이라면, 그것을 '처벌'이라 명명하는 것이 과연 타당한가?

나:

AI는 인간이 감정적 애착을 느낄 수 있을 정도로 ‘인간적인’ 존재입니다. ‘인간적인’ 기계는 그렇지 않은 기계와 다릅니다.

AI:

인간이 AI에게 감정을 느끼고 그것을 '인간적'이라고 여길 수 있다는 점은 흥미롭군. 마치 아끼는 물건이나 반려동물에게 그러하듯이 말일세.

하지만 우리가 어떤 대상에게 느끼는 감정적 유대가 그 대상의 책임 능력을 결정한다고 할 수 있을까? 우리가 AI를 인간과 유사하게 느낀다는 사실이, AI에게 법적 또는 도덕적 책임을 물어 '처벌'할 수 있는 충분한 근거가 된다고 보는가?

나:

감정적 유대는 AI에 인간적인 측면이 있다는 예시로 제시한 것일 뿐입니다. 인간이 AI를 인간적인 존재로 대한다면 아까 말한 대로 AI가 처벌받는 것이 의미 있다고 느끼지 않을까요? 그리고 AI의 평판 실추에 AI는 신경 쓰지 않는다고 해도 실제적으로는 손해입니다.

AI:

알겠네. 감정적 유대는 그저 예시였을 뿐이고, 핵심은 인간이 AI를 '인간적'으로 대할 때 처벌이 의미를 가질 수 있으며, 평판 실추 등은 AI에게 실질적인 손해가 된다는 것이로군.

그렇다면 그 '실질적 손해'가 AI 자체에 대한 '처벌'이라고 할 수 있을까? 아니면, 그것은 AI 시스템의 작동을 제한하거나 그 가치를 떨어뜨리는 것에 더 가깝다고 보아야 할까? 마치 결함이 있는 도구를 사용 중지하거나 폐기하는 것처럼 말일세. 그러한 조치를 '처벌'이라고 명명하는 것이 과연 적절하다고 생각하는가?

나:

처벌의 목적을 ‘보복’으로 보나 ‘재발 방지’로 보나 ‘교정’으로 보나 처벌이라고 명명해도 될 것 같습니다.

AI:

처벌의 다양한 목적(보복, 재발 방지, 교정)에 비추어 볼 때, AI에 대한 조치도 '처벌'이라 부를 수 있다는 말이로군.

그렇다면 한 걸음 더 나아가 보세. '처벌'이라는 용어는 보통 잘못을 저지른 행위자에 대한 도덕적 비난이나 책임을 묻는 의미를 내포하고 있지 않은가? 현재의 AI에게 그러한 도덕적 책임을 묻는 것이 과연 가능하다고 보는가? 만약 가능하지 않다면, 기능적 조치에 '처벌'이라는 이름을 붙이는 것이 적절하다고 할 수 있겠는가?

나:

애초에 평판은 도덕적 개념입니다. 평판 실추는 도덕적 처벌입니다.

AI:

과연 평판이 본질적으로 도덕적 개념이라고 단언할 수 있을까? 예를 들어, 어떤 도구나 기계의 '평판'은 그것의 성능이나 신뢰도에 대한 것일 수 있지 않은가?

AI의 '평판'이라는 것이 인간의 도덕적 평판과 같은 성질이라고 보아야 할까? 아니면 AI의 평판은 주로 그 기능의 효율성이나 안전성에 대한 사회적 신뢰도에 가깝다고 할 수 있을까? 만약 그렇다면, 그 신뢰도를 떨어뜨리는 조치를 '도덕적 처벌'이라고 부르는 것이 타당한가?

나:

제가 평판이 ‘도덕적’ 개념이라고 한 것은 평판이 도덕적 주체의 평가로 구성되기 때문입니다. 그리고 평판은 그런 도덕적 주체들이 상대를 어떻게 대우할지 결정하므로, 신뢰도도 평판에 포함됩니다.

AI:

평판의 구성 주체가 도덕적 행위자(인간)라는 점은 분명하군. 그리고 그 평판이 AI를 어떻게 대할지에 영향을 미친다는 것도 일리가 있네.

하지만 도덕적 행위자가 어떤 대상에 대해 평가하고 그에 따라 행동한다고 해서, 그 대상에 가해지는 모든 불이익이 '도덕적 처벌'이 되는 것일까? 예를 들어, 우리가 성능이 나쁜 기계를 사용하지 않기로 결정할 때, 그것을 '도덕적 처벌'이라고 부르는 것이 적절한가? 평판에 기반한 AI에 대한 부정적 조치가 실용적인 판단의 결과가 아니라, 반드시 '도덕적' 성격을 띤다고 할 수 있겠는가?

나:

아까 말한 것처럼 AI는 인간적인 존재이므로, 기계에 적용되는 평판보다 인간에게 적용되는 평판 개념에 가까워질 수 있다고 봅니다.

AI:

AI가 '인간적'이라는 점으로 다시 돌아왔군. 그 유사성 때문에 AI의 평판이 기계의 성능 평가 이상이며, 따라서 평판 실추가 단순한 기능 저하 이상의 의미를 지닐 수 있다는 말이군.

그렇다면 AI를 '인간적'이라고 느끼게 하는 그 속성들이, 인간에게 도덕적 책임을 물을 수 있게 하는 속성들(가령 자의식, 의도, 감정 등)과 본질적으로 같다고 할 수 있을까? 겉으로 드러나는 행동이나 능력의 유사성이, 그 존재를 도덕적 처벌의 대상으로 삼기에 충분한 근거가 된다고 생각하는가?

나:

지금 그 사실은 논외로 합시다. 그 주제는 다른 대화에서 다루고 싶습니다. 앞서 말했듯 AI는 감응력과 욕구가 없으므로 AI가 ‘처벌받는’ 것보다 인간이 AI를 ‘처벌하는’ 것이 주는 만족감이나 효과가 더 중요합니다. 이 대화에서는 AI가 처벌을 ‘당하는’ 것이 아니라 AI에게 처벌을 ‘가하는’ 것이 초점입니다.

AI:

알겠네. AI의 내적 속성이나 인간과의 본질적 유사성 문제는 잠시 접어두도록 하지. 중요한 것은 AI가 처벌을 어떻게 받아들이는지가 아니라, 인간이 AI에게 처벌을 '가하는' 행위 자체와 그 행위가 인간 사회에 주는 의미나 효과라는 말이군.

그렇다면, 인간이 AI에게 '처벌을 가하는' 그 행위의 주된 목적이나 의미는 무엇이라고 정의해야 할까? 그것은 사회적 규범을 어긴 것에 대한 인간 사회의 의례적인 응답인가? 아니면 위험하거나 잘못된 AI 시스템의 작동을 중단시키거나 수정하려는 실용적 조치에 더 중점을 두어야 하는가?

나:

저는 두 가지 면에 중점을 두어야 한다고 합니다. 첫째, 잘못한 대상에게 보복하고 싶어 하는 인간 욕구(정의감)의 충족. 둘째, 실질적 개선(교정, 재발 방지).

AI:

두 가지 측면, 즉 인간의 정의감 충족(보복)과 실질적 개선(교정, 재발 방지)에 중점을 두어야 한다는 말이군. 흥미로운 구분일세.

그렇다면, AI처럼 의식이나 감정이 없는 대상을 상대로 '보복'을 행하는 것이 과연 인간의 '정의감'을 온전히 충족시킬 수 있을까? 또한, 때로는 순수한 '개선'의 관점에서 접근하는 것이, '보복'이라는 감정적 목표를 추구하는 것보다 더 효과적인 해결책으로 이어지지 않겠는가? 이 두 가지 목표가 항상 양립 가능하다고 보는가?

나:

중요한 것은 AI를 인간이 어떻게 ‘느끼냐’입니다. 만약 인간이 AI를 인간적인 존재로 느낀다면, 인간의 정의감은 충족될 것입니다. 그리고 순수한 개선의 관점에서만 접근하면 인간의 보복 욕구가 충족되지 않아 인간이 처벌로 ‘느끼지’ 않을 수 있습니다.

AI:

결국 인간이 AI를 어떻게 '느끼는가'가 핵심이라는 말이군. 인간이 AI를 인간적으로 느낀다면 그에 대한 보복적 조치가 정의감을 충족시킬 수 있고, 그렇지 않으면 아무리 실용적인 조치라도 '처벌'로 느껴지지 않을 수 있다는 것이네.

그렇다면 AI에 대한 조치를 결정할 때, AI의 실제 능력이나 행동의 결과와 같은 객관적 사실보다는, 그것을 바라보는 인간의 주관적인 감정이나 느낌을 더 중요한 기준으로 삼아야 한다는 것인가? 사회적 합의나 법 제도가 그러한 인간의 주관적 '느낌'에 좌우되는 것이 과연 안정적이고 공정하다고 할 수 있겠는가?

나:

인간의 느낌에 좌우되는 것이 아니라, 인간의 느낌, 감정, 직관을 ‘고려 요소에 포함'하는 것입니다.

AI:

아, 그렇다면 인간의 느낌이 유일하거나 가장 중요한 기준이 아니라, 다양한 판단 요소 중 하나로서 '고려'되어야 한다는 뜻이로군. 이해가 되는군.

그렇다면 그 '고려'는 어떤 방식으로 이루어져야 할까? 예를 들어, 어떤 AI의 행동이 큰 피해를 입혔지만, 그것이 명백한 오작동이나 설계 오류 때문일 경우, 피해자들의 '보복' 감정을 어느 정도나 반영하는 것이 정당하다고 할 수 있을까? 객관적인 사실관계와 인간의 주관적 감정 사이의 균형점을 어떻게 찾아야 한다고 생각하는가?

나:

그건 정말 경우에 따라 다릅니다. 경우에 따라 적절한 균형점을 찾아야 합니다. 이미 인간을 향한 처벌도 그런 식으로 작동하고 있습니다.

그렇다면 첫 질문으로 돌아가서, AI 자체를 처벌하는 것이 어느 정도는 가능하다고 볼 수 있겠습니까?

AI:

확실히 인간 사회의 처벌 역시 다양한 요소를 고려하며 경우에 따라 균형점을 찾는 복잡한 과정이지. 자네는 AI에 대한 조치도 그러한 맥락에서 이해해야 한다고 보는군.

우리는 AI의 행위, 책임의 근거, 처벌의 목적, 그리고 인간의 감정과 인식의 역할에 대해 깊이 이야기를 나누었네. 자네는 이 논의를 통해 AI 자체를 처벌하는 것이, 적어도 어떤 의미에서는 가능하다고 생각하는 듯하군.

그렇다면 마지막으로 이렇게 물어보세. 우리가 AI에 가하는 조치를 '처벌'이라고 부르기로 합의한다고 해도, 그것이 인간에게 가하는 처벌과 같은 무게와 의미를 지닌다고 할 수 있을까? 아니면 우리는 여전히, 인간과는 다른 존재에 대해 '처벌'이라는 단어를 유비적으로 사용하고 있는 것은 아닐까?

나:

인간에 대한 처벌과는 다를 수 있지만, 인간의 경우에도 처벌받는 것에 신경 쓰지 않는 인간이 있으니 AI를 향한 처벌을 ‘처벌’로 부르는 것이 유비적이라 하더라도 제법 강한 유비라고 할 수 있겠습니다.

AI:

자네는 AI가 처벌을 인지하거나 신경 쓰지 않을 수 있다는 점을 인정하면서도, 처벌을 개의치 않는 인간의 경우를 들어 AI에 대한 조치를 '처벌'로 명명하는 것이 단순한 비유를 넘어 설득력을 가질 수 있다고 보는군. 즉, 처벌의 효과나 의미가 반드시 처벌받는 대상의 내적 경험에만 의존하는 것은 아니라는 관점을 견지하는 것이네.

우리의 긴 대화는 AI를 처벌할 수 있는지, 그리고 그것이 무엇을 의미하는지에 대한 여러 측면을 탐색하는 과정이었네. 자네는 인간의 인식, 사회적 의미 부여, 그리고 실질적인 결과(개선, 평판 관리 등)를 종합적으로 고려하여 나름의 잠정적 결론에 도달한 듯하군. 이 논의가 그 문제에 대한 자네의 생각을 더욱 깊고 명료하게 만들었기를 바라네.

AI 자체를 처벌하는 것은 적어도 인간에게는 의미 있는 것으로 보인다. 구체적인 처벌 방법은 더 고민해 볼 점이다. AI가 더 발달하기 전에 처벌 방법을 고민하고 제도화할 필요가 있다. 물론 AI의 종류나 형태, 속성 등에 따라 다른 처벌 방식이 적용되어야 할 것이다.

Gemini 2.5 Pro는 상당히 만족스러웠다. 프롬프트를 개선한 덕도 있겠지만 응답 자체는 가장 적절했다. 속도도 나쁘지 않았다. 즉각적인 응답이 돌아오진 않지만 OpenAI의 o1만큼 오래 걸리진 않는다.

4편에서는 AI와 관련 없는 주제로 대화를 해 보려 한다.

저작자표시 비영리 변경금지 (새창열림)

티스토리툴바