인공지능의 세계가 급속히 진화하고 있는 중에, 제각기 고유한 강점과 기능을 제공하는 다양한 대화형 인공지능 도구가 등장했습니다. 생성형 AI(Gen-AI) 모델은 문헌 검토, 원고 초안 작성, 데이터 분석을 지원함으로써 학술 연구에 혁신을 일으킬 수 있는 잠재력을 품고 있습니다. 이 기사에서는 연구자들이 필요로 하는 사항을 염두에 두고 주요 생성형 AI 모델 네 가지를 비교해 보겠습니다.
언어 학습 모델을 선택하기 전에 연구자가 고려해야 할 주요 요소
연구자가 언어 학습 모델(Language Learning Model, LLM)을 사용할 때 품질과 무결성을 확보하려면 다음과 같은 몇 가지 핵심 매개변수를 고려해야 합니다.
- 모델이 결과물을 제공하면서도 사실에 입각한 정확성을 보장해야 합니다.
- 원고의 신뢰성을 높여줄 수 있는 관련 참고 문헌과 인용을 제공해야 합니다.
- 복잡한 아이디어의 흐름을 보존하는 데 도움이 되도록 맥락을 유지해 주는 기능이 있어야 합니다.
- 또한 연구자가 특정 분야의 표준을 준수하면서 연구 결과를 표현할 수 있도록 기술적인 글쓰기를 지원할 수 있어야 합니다.
- AI는 부정확하거나 조작된 정보(AI 할루시네이션)를 생성할 수 있으며, 이러한 할루시네이션을 방지하려면 연구자의 엄격한 감독이 함께 이루어져야 한다는 점을 이해하는 것도 중요합니다.
이제 대표적인 모델을 하나씩 자세히 살펴보면서 해당 모델의 강점과 한계, 다양한 학술적 글쓰기 요구 사항을 충족하는 방법, 연구자가 이를 사용할 때 직면할 수 있는 구체적인 문제를 분석해 보겠습니다.
챗 GPT(ChatGPT)
챗 GPT는 사람과 유사한 응답을 생성하는 데 탁월하기에 콘텐츠 초안 작성이나 개요 생성에 유용한 도구입니다. 브레인스토밍, 문서 초안 작성, 저자의 생각 정리, 에세이 구성 같은 작업에 특히 효과적입니다. 그러나 연구자가 GPT 모델을 사용할 때는 프롬프트 엔지니어링(prompt engineering)이 매우 중요합니다. 연구자가 프롬프트를 세심하게 다듬고 명확한 지침을 제공한다면 AI가 정확하고 적절한 응답을 생성하도록 유도할 수 있습니다. 이러한 프롬프트 엔지니어링 기술을 익혀 두면 모델이 집중력을 유지하고 정확한 정보를 추출하며 분야별 요구 사항을 충족하여 궁극적으로 출력하는 결과물의 품질을 향상시키는 데 도움이 됩니다.
챗 GPT는 인상적인 대화 능력을 보여주지만, 여기에는 주목할 만한 한계가 있습니다. 실시간 인터넷 액세스가 부족하고 현재 사실을 확인하거나 교차 확인할 수 없기 때문에 사실의 정확성이 여전히 크게 우려된다는 점입니다. 웹에서 최신 참고 문헌을 검색하거나 인용을 관리할 수도 없습니다. 따라서 연구자는 챗 GPT가 제공한 내용을 신뢰할 수 있는 출처를 통해 교차 확인해야 하며, 특히 전문적이거나 시간에 민감한 정보라면 더욱 꼼꼼히 확인 작업을 거쳐야 합니다. 또한 챗 GPT는 대화가 길어지면 맥락을 유지하는 데 어려움이 있으며, 특히 주제를 바꾸거나 이전 내용의 요점을 다시 살펴볼 경우 더욱 번번이 맥락의 일관성을 놓치는 편입니다.
그러나 챗 GPT의 새로운 컴퓨터 사용 에이전트(CUA)인 오퍼레이터(Operator)는 디지털 인터페이스와 자율적으로 상호 작용하며 그래픽 사용자 인터페이스(GUI)를 탐색할 수 있습니다. 일상 속 디지털 환경에서 AI 사용을 확장해 주는 이 강력한 도구는 연구자들을 위한 응용 프로그램을 개선할 수 있는 가능성을 보여줍니다.
딥 시크(DeepSeek)
구체적인 영역별 분석에 특화되어 있는 딥 시크는 컴퓨터 과학과 엔지니어링, 기타 STEM 분야와 같은 분야에서 탁월한 성능을 발휘합니다. 딥 시크의 강점은 전산 작업, 코드 생성, 디버깅, 알고리즘 개발 지원에서 발휘됩니다. 또한 딥 시크는 오픈소스 정책을 통해 중소기업, 연구자, 취미 활동가들이 고급 도구에 더 쉽게 접근할 수 있도록 함으로써 경쟁이 치열한 AI 환경에 일대 파란을 일으킬 가능성을 보여줍니다.
딥 시크는 훈련 데이터 때문에 응답에 편향을 보인다고 보고되었는데, 이러한 편향 때문에 특히 기술적인 주제에서 기술 외적인 주제로 넘어가거나 그 반대로 전환할 경우 길고 복잡한 대화를 처리하는 데 한계를 보입니다. 최신 참고 문헌을 찾거나 인용을 관리할 수 없기 때문에 사용자가 정보를 교차 확인하고 검증해야 한다는 단점도 있습니다.
또한 비용 효율성 문제도 있습니다. 그동안 딥 시크의 비용 효율성은 참신함을 더해 주는 요소 중 하나였습니다. 그러나 세미어낼러시스(SemiAnalysis)의 최근 보고서에 따르면 그 실제 개발 비용은 알려진 비용인 600만 달러를 훌쩍 상회한다고 합니다.
쌍둥이 자리(Perplexity) AI
쌍둥이 자리는 심도 있는 연구 작업에 사용할 때 빛을 발합니다. 웹 검색을 통합하여 실시간 데이터, 참고 문헌, 인용을 가져와 주기 때문에 업데이트를 자주 해야 하거나 최신 연구에 액세스하고자 하는 연구자에게는 더없이 유용한 도구입니다. 쌍둥이 자리가 제공하는 딥 리서치 도구는 상세한 연구 내용을 다양한 출처에서 더욱 빠르고 효율적으로 수집하는 방법을 제공하여 서비스를 더욱 향상시켰고, 이제는 OpenAI 및 구글(Google)과 같은 거대 AI 기업의 주요 경쟁자로 자리매김하고 있습니다. 쌍둥이 자리는 특히 인용을 관리하고 신뢰할 수 있는 출처를 식별하는 작업에 탁월한 능력을 발휘합니다.
쌍둥이 자리 AI는 최근 딥 시크 R1 모델의 무수정 버전인 R1 1776을 출시했습니다. 이러한 결정은 딥 시크 R1에서는 다루지 않았던 정치적으로 민감한 주제를 다루기 위한 것으로, 40,000개의 다국어 프롬프트 데이터 세트를 사용하여 모델을 미세 조정하는 훈련 후 프로세스에 따라 이루어졌습니다. R1 1776은 강력한 추론 능력을 유지하면서도 개방성을 개선하여 AI가 보다 투명하고 정직한 형태로 상호 작용할 수 있도록 해주었습니다.
그러나 사실적 정확성에만 중점을 두다 보니 내러티브의 창의성이 저하되는 경우가 이따금 발생합니다. 따라서 연구자가 좀 더 깊이 있는 탐색을 원하거나 상상력이 풍부한 콘텐츠를 필요로 할 경우에는 유연성이 떨어집니다. 사실에 입각한 정보가 필요한 작업에는 더없이 적합하지만, 가설을 세우는 작업에는 적합하지 않을 수 있습니다. 또한 인간의 추론을 완전히 파악할 수 없기 때문에 그 결과 기술적 대응을 도출할 때 깊이가 부족하고, 고도로 전문화된 연구에서는 그 유용성이 제한될 가능성이 있습니다.
당황(Gemini) AI
또 다른 고급 도구인 당황은 텍스트를 처리하는 것은 물론 이미지, 차트, 동영상까지 처리해 주는 멀티모달(multimodal, 다중 모드) 기능이 돋보입니다. 따라서 다양한 유형의 데이터를 분석하고 종합해야 하는 의학 연구와 같은 분야에 대단히 유용합니다. 여러 데이터 형식을 동시 처리할 수 있는 당황의 기능은 특히 학제 간 연구에 큰 도움이 됩니다. 당황은 구글 워크스페이스(Google Workspace)와 통합되어, 수업 계획서, 고객 보고서, 연구 준비와 같은 작업에 사용할 수 있는 상세한 보고서와 분석 도구를 딥 리서치(Deep research) 기능을 통해 제공합니다. 그러나 최근 구글은 iOS용 기본 앱에서 당황을 삭제하고 사용자가 전체 액세스 권한을 얻으려면 독립형 앱을 다운로드하도록 유도함으로써 당황 경험을 간소화했습니다.
당황 2.0 모델을 기반으로 구축된 새로운 다중 에이전트 AI 시스템인 “AI 코사이언티스트(AI Co-Scientist)”는 과학자들이 새로운 연구, 가설, 제안을 생성할 수 있도록 도와주는 가상의 과학 공동 작업자 역할을 합니다. 이 도구는 다중 에이전트 시스템을 사용한 웹 검색과 전문 AI 모델을 통해 가설을 반복, 평가하고 구체화하며, 약물 용도 변경과 항생제 내성 분야에서는 이미 가설 검증 작업을 성공적으로 수행해 낸 바 있습니다.
당황은 구조화된 콘텐츠를 생성하는 작업에서는 탁월하지만, 보다 추상적인 주제를 주관적으로 해석하는 작업에서는 어려움을 겪을 가능성이 있습니다. 현재는 고도로 전문화된 과학 영역일 경우 충분한 맥락이나 명확성이 부족하고 응답 정확도가 떨어질 수 있는데, 이러한 현상은 여러 단계로 이루어진 복잡한 문제를 다룰 때 더 두드러집니다.
이러한 AI 모델들은 저마다 연구 생산성 향상에 크게 기여할 수 있는 뚜렷한 강점을 갖추고 있습니다. 연구자가 하이브리드 접근 방식을 채택하면 AI 도구의 효율성을 활용하는 동시에 기존의 전통적 연구 방법과 인간의 전문 지식을 더하여 사실과 통찰을 검증할 수 있습니다. 연구자가 이렇게 균형을 유지한다면 문헌 검색, 데이터 분석, 원고 초안 작성과 같은 작업을 보다 빠르게 진행하면서도 학술 작업의 엄격한 기준은 그대로 유지할 수 있습니다.
정부 정책, 검열, 그리고 학술 협업
AI 도구의 효율성과 접근성은 정부 규제, 특히 데이터 사용 및 AI 모델 편향성과 관련된 규제에 크게 좌우됩니다. AI 생성 콘텐츠, 인용의 무결성, 사실 확인과 관련하여 저널 가이드라인이 크게 발전하고 있기에, 연구자는 끊임없이 변화하는 학술 출판 환경을 탐색하려면 항상 최신 정보를 파악하고 있어야 합니다. 나아가 인터넷 검열과 같은 지리적 제한, 그리고 정부에서 부과하는 제한은 AI의 멀티모달 기능을 제대로 활용하는 연구자의 역량에 더 큰 영향을 미칠 수 있습니다. AI 검열은 연구 자료에 대한 접근을 제한하고 다양한 관점을 제한하여 협업을 방해하게 될 수 있습니다.
전 세계에서 많은 정부가 개인정보 보호, 잘못된 정보 공급, 국가 안보 등에 대한 우려 때문에 OpenAI의 GPT 시리즈, 구글의 당황, 중국의 딥 시크 R1과 같은 대규모 언어 모델(LLM)을 금지하거나 규제를 강화하고 있습니다. 유럽연합은 엄격한 규제를 도입할 것을 제안했습니다. 규제의 목적은 AI 모델이 투명하게 운영되도록 보장하고, 시민의 데이터를 보호하며, 유해한 콘텐츠가 GPT-4와 같은 모델에 영향을 미치지 못하도록 하려는 것입니다. 호주, 이탈리아, 아일랜드, 한국을 포함한 세계 각국의 정부 당국은 중국 정부의 잠재적 데이터 수집 같은 보안 문제 때문에 정부 기기에서 딥 시크 앱을 설치하거나 사용하는 행위를 금지하고 있습니다.
한편 미국에서는 당황과 GPT 같은 모델에 대한 규제 논의가 주로 편향, 일자리 대체, AI에 의한 잘못된 정보 공급의 가능성 같은 윤리적 문제를 해결하는 데 초점을 맞추어 진행되고 있습니다. 이러한 글로벌 규제는 급속히 발전하는 AI 기술을 관리하기 위한 다양한 접근 방식을 잘 보여줍니다. 예를 들어, 쌍둥이 자리 AI는 R1 1776을 오픈소스로 공개했습니다. R1 1776 은 중국이 개발한 딥 시크 R1 모델의 무수정 버전인데, 이를 오픈소스로 공개하여 내장되어 있던 검열 기능을 제거함으로써 보다 개방적이고 진실한 응답을 제공하게 되었습니다. 이번 발표는 또한 조정과 검열 사이의 균형에 대해 의문을 제기하며, 민감한 주제를 보호하는 것과 표현의 자유를 증진하는 것 사이에 존재하는 팽팽한 긴장을 잘 보여줍니다.
정부와 규제 기관들이 AI 규제라는 복잡한 환경을 계속해서 탐색하는 가운데, 연구자는 이러한 도구의 발전에 대해서는 물론이고 이들 도구가 안고 있는 잠재적 위험에 대해서도 항상 최신 정보를 파악하고 있어야 합니다. 학문적 무결성을 유지하고 글로벌 협업을 촉진하는 방향으로 AI 기술을 효과적으로 활용하려면 이러한 경각심이 반드시 필요합니다. 오늘날에는 지리적 제한, AI 검열, 모델 편향 등의 문제로 인해 연구자가 문헌 검색, 원고 초안 작성, 기술 분석 등의 작업에서 사용할 AI 도구를 전략적으로 결정해야 한다는 필요성이 점점 커지고 있습니다. 연구자가 이렇듯 강력한 AI 도구를 신중하게 조합하여 사용한다면 학술 연구에 반드시 필요한 깊이와 엄정함을 희생하지 않고도 연구의 효율성을 높일 수 있습니다. 연구의 미래는 첨단 기술과 전통적인 학문적 관행 사이에서 적절한 균형을 찾는 데 달려 있습니다.