-
[MITT 리뷰] 최근 생성형AI GPT-4o에 대한 과학계 의견 리뷰New Technology 2024. 6. 13. 00:56
GPT-4oの中国語に異常 ポルノ、ギャンブルで トークンが汚染されていた
オープンAIの最新の大規模言語モデル「GPT-4o」の中国語トークナイザーに、ポルノやギャンブル関連の用語が大量に含まれ、ハルシネーション(幻覚)が発生していることが分かった。訓練
www.technologyreview.jp
GPT-4o의 중국어에 이상한 언어로 토큰 이 오염
오픈 AI의 최신 대규모 언어 모델 'GPT-4o'의 중국어 토크나이저에 포르노와 도박 관련 용어가 대량으로 포함되어 헐시네이션(환각)이 발생하고 있는 것으로 나타났다. 훈련 데이터의 청소 부족으로 인한 것으로 보인다.
5월 13일 채팅봇의 최신 버전 'GPT-4o'를 발표한 직후, 일부 중국어 화자들은 무언가가 이상하다는 것을 깨닫기 시작했다. 텍스트를 해석하기 위해서 사용되는 토큰(모델이 취급하는 말의 단위)이 스팸이나 포르노 프레이즈로 넘쳐났다.
챗봇 등에서 사용되는 대규모 언어 모델(LLM)의 추론 효율을 연구하고 있는 프린스턴 대학의 박사과정 학생 티안라 사이는 5월 14일 GPT-4o의 공개 토큰 라이브러리에 액세스 , 중국어 프롬프트(지시 텍스트)를 분석 및 압축하기 위해 모델이 사용하는 가장 긴 100개의 중국어 토큰 목록을 얻었다.
인간은 단어를 사용하여 문장을 읽지만 LLM은 토큰을 사용하여 읽습니다. 토큰은 일관되고 중요한 의미를 가진 문장의 명확한 단위입니다. 토큰에는 사전에 실려 있는 단어뿐만 아니라 접미사, 관용구, 이름 등도 포함된다. 모델이 인코딩하는 토큰의 수가 많을수록 모델은 더 빨리 문장을 읽을 수 있고 소비하는 컴퓨팅 파워도 적어지기 때문에 응답 비용을 낮출 수 있다.
코뿔소의 조사에 따르면, 100개의 토큰 중 일상 대화에서 자주 사용되는 일반적인 것은 3개뿐이고, 그 외는 모두 도박이나 포르노의 맥락에서만 사용되는 단어나 표현이었다. 가장 긴 토큰은 10.5 한자로 문자 그대로 '_무료로 볼 수 있는 일본인 포르노 비디오'를 의미하는 것이었다.
"이것은 조금 바보 같다"고 코뿔소는 쓰고 토큰 목록을 GitHub에 게시했습니다.
MIT 테크놀로지 리뷰는 오픈 AI에 질문을 보냈지만, 이 기사 공개까지 응답은 얻을 수 없었다.
GPT-4o는 이전 버전에 비해 다국어 작업의 처리가 뛰어나다고 한다. 특히, 영어 이외의 언어의 텍스트를 보다 잘 압축하는 새로운 토크나이저(문장을 토큰으로 분할하는 툴)에 의해 그것이 달성되고 있다고 한다.
그러나, 적어도 중국어에 관해서는, GPT-4o가 사용하는 새로운 토크나이저는, 불균형할 정도로 많은 무의미한 프레이즈를 도입하고 있다. 토크나이저를 훈련하기 전의 데이터의 클리닝과 필터링이 불충분했던 것이 원인일 가능성이 높다고 전문가들은 지적하고 있다.
그리고 그에 따라 GPT-4o의 성능에도 영향이 나온다. 이러한 토큰은 실제로 자주 사용되는 단어나 구문이 아니기 때문에 GPT-4o가 토큰의 의미를 파악할 수 없는 경우가 있다. 연구자들은 이러한 토큰을 사용하여 GPT-4o가 헐시네이션(환각, 엄청난 잘못된 응답을 생성하는 현상)을 일으키거나 모델에 의해 설정된 안전 가드 레일을 회피하게 할 수도 있었다 .
비영어 토큰이 중요한 이유
모델이 텍스트를 처리하는 가장 간단한 방법은 한 문자씩 처리하는 것이다. 그러나 'cryptocurrency'가 항상 'cryptocurrency(암호화폐)'를 의미하는 것처럼 특정 문자열이 항상 같은 것을 의미한다고 모델이 이해할 수 있는 경우보다 분명 시간과 노력이 걸린다. 이러한 문자열은 모델이 프롬프트를 처리하는 "토큰"으로 인코딩됩니다. 따라서 더 긴 토큰을 포함하면 일반적으로 LLM이 더 효율적이므로 종종 토큰 단위로 청구되는 사용자에게 저렴한 가격으로 사용할 수 있습니다.
오픈 AI는 5월 13일에 GPT-4o를 릴리스했을 때, 이전의 버전인 GPT-3.5와 GPT-4로 사용하고 있던 것에 대신하는 새로운 토크나이저도 릴리스했다. 오픈AI의 웹사이트에 따르면 새로운 토크나이저는 특히 영어 이외의 언어 지원을 강화한다고 한다.
새로운 토크나이저에는 총 20만 개의 토큰이 포함되어 있으며, 그 약 25%가 영어 이외의 언어라고 멘로 벤처스(Menlo Ventures)의 인공지능(AI) 투자자인 디디 다스는 말한다. 다스가 언어 필터를 사용하여 다양한 언어의 토큰 수를 세었는데 영어 이외의 상위 언어는 러시아어, 아랍어, 베트남어였다.
"내 생각에서 토크 나이저의 주요 효과는 이러한 언어의 토큰 비용을 낮추는 것이며, 이러한 언어의 질은 극적으로 향상되지 않는다"고 다스는 말한다. LLM이 영어 이외의 언어로 보다 양질의, 긴 토큰을 가지고 있으면, 프롬프트를 보다 빨리 분석해, 같은 응답에 대해서 유저에게 청구하는 요금을 낮출 수 있다. 새로운 토크나이저를 사용하면 "거의 4배의 비용 절감을 전망할 수 있습니다"라고 다스는 말한다.
'New Technology' 카테고리의 다른 글
바이러스, 트로이 목마 및 웜의 차이는 무엇입니까? (0) 2022.02.01 Japan 일본 인프라 시스템 해외 진출 전략 2025 (0) 2022.01.14 에어프라이어, 이제는 필수품 (0) 2022.01.02 빌 게이츠의 투자 분야 (0) 2021.12.28 [IoT]소음을 막아주는 이어플러그 (0) 2015.06.16