유튜브 영상 보기 – Insanely Fast LLAMA-3 on Groq Playground and API for FREE
하루만 해도 봐야 할 생성형 AI 관련 영상들이 몇 개는 유튜브 영상이 올라옵니다. 국내 영상도 있지만 대부분은 유튜버가 영어를 사용합니다. 국내 영상도 그렇지만 이 영상들을 다 보고 있을 시간이 없습니다 .그러다 보니 스크립트 해 주는 곳을 찾게 되고 https://youtubetranscript.com/ 여기가 이를 위해 사용하는 사이트입니다 .
문제는 문장 구분이 안 되어 제시 된다는 것입니다. 그래서 AI Pilot Smarteasy를 사용해 문장 구분을 하고 번역을 하고 이것을 읽을 시간도 없으면 요약해서 봅니다.
번역까지 한 내용을 저만 보고 버리는 것은 아까워서 공유해야겠다는 생각이 들었고, 첫 번째 영상에 대한 문장 구분과 번역까지 해서 올립니다.
영상은 https://www.youtube.com/watch?v=ySwJT3Z1MFI&t=2s 입니다.
올라마를 사용하면 라마3를 로컬에서 사용할 수 있습니다. 하지만 로컬에서 돌린다는 것은 로컬 PC사양을 따르는 것이니 사양이 딸리면 좀 느릴 수 밖에 없습니다. Groq은 라마3를 무료 API로 사용할 수 있도록 하는 AI 서비스 입니다.
이번에 공유하는 영상 내용이 Groq에 대한 것입니다 .
AI Pilot Smarteasy는 올라마를 지원해서 로컬에서 라마3를 사용할 수 있도록 하고, Groq을 지원해 빠른 속도로 응답하는 라마3를 지원합니다.
해당 영상은 AI Pilot Smarteasy에서 Groq으로 문장 구분하고, GPT-4로 번역하고, 최종적으로 한 번 읽으면서 매우 조금 더 다듬어 봤습니다.
Insanely Fast LLAMA-3 on Groq Playground and API for FREE
좋아요, 이것이 실제 생성 속도이며, 우리는 초 당 800개 이상의 토큰을 얻고 있습니다. 이는 정말 놀랍습니다. 이런 것은 이전에 본 적이 없습니다. 그러므로, 오늘 아침에 라마3이 출시된 이후, 많은 회사들이 이를 자신들의 플랫폼에 통합하고 있습니다. 개인적으로 정말 기대되는 것은 Groq Cloud인데, 그들은 현재 시장에서 가장 빠른 추론 속도를 가지고 있기 때문입니다. 이제 그들은 라마3를 그들의 Playgroud와 API에 모두 통합했으므로, 이제 70억 버전과 8억 버전을 모두 사용할 수 있습니다. 저는 여러분이 그것을 어떻게 시작하는지 보여드릴 것입니다, Playgroud에서 뿐만 아니라 API에서도, 만약 여러분이 그 위에 자신의 애플리케이션을 구축하고 있다면. 그러니, 라마3 모델로 시작해 봅시다. 이제, 저는 이 프롬프트를 테스트 프롬프트로 사용할 것입니다. 이 비디오에서는 응답이 어떤지는 신경 쓰지 않습니다; 우리는 추론 속도에만 관심이 있습니다. 프롬프트는 다음과 같습니다: “저는 2갤런짜리 플라스크와 4갤런짜리 하나를 가지고 있습니다. 6갤런은 어떻게 잴까요?” 이 프롬프트는 아마도 그것의 훈련 데이터에서 본 적이 있을 것입니다. 여기 추론 속도가 있는데, 정말 빠릅니다.
그러니까, 생성 속도는 약 0.5초 걸렸고, 초 당 토큰 생성 속도는 약 300개입니다. 우리가 이야기하는 것은 더 큰 Z 모델에 관한 것이므로 이는 꽤 훌륭합니다. 좋아요, 이제 같은 프롬프트를 80억 모델에서 테스트해 보겠습니다, 반응이 어떻게 나올지 봅시다. 이번에는 초 당 약 800개의 토큰이 생성되었고, 몇 분의 1초가 걸렸으므로 이 또한 꽤 훌륭합니다. 이제, 모델에게 더 긴 텍스트 생성을 요청하면 어떤 일이 발생하는지 보겠습니다. 모델이 더 긴 텍스트를 생성하면 시간이 더 걸릴 것이라는 것을 알고 계시겠지만, 초 당 토큰 수에 어떤 영향을 미치는지 확인해 보겠습니다. 여기서는 여러분에게 오픈 소스 AI 모델의 중요성에 대한 500단어 에세이를 작성해 달라고 요청합니다. 먼저 80억 모델을 사용할 것이고, 여기에 에세이가 있습니다. 이제 초 당 토큰 수는 거의 같으며, 이는 상당히 인상적입니다. 다음으로, 700억 모델을 살펴보겠습니다. 그 후에는 API 사용 방법을 보여 드리겠습니다, 그러니 이를 실행해 보겠습니다. 좋아요, 이것은 실시간 속도였습니다 – 확실히 5,000 단어는 아니지만 아마도 수천 단어 정도일 것입니다. 생성 속도는 꽤 일관되므로 이는 정말 멋집니다.
이제 원하신다면 시스템 메시지도 포함할 수 있습니다. 보통 모델과 프롬프트를 테스트하기 위해 Playground를 사용하고자 하며, 그 결과에 만족하면 자신의 애플리케이션에 통합하고 싶어하실 겁니다. 그 다음에는 Groq API로 넘어가서 사용자들에게 서비스를 시작할 수 있습니다, 알겠죠? 그래서 저는 Groq API를 통해 여러분의 애플리케이션에서 Groq을 사용하는 방법을 보여주기 위해 이 구글 노트북을 준비했습니다. 먼저, 파이썬 클라이언트가 필요하므로, pip install Groq을 사용하여 설치합니다. 다음으로, 우리 자신의 API 키를 제공해야 합니다. 이를 위해 Playground로 가서 API 키를 클릭한 다음 새 API 키를 생성합니다. 여기에서 새 API 키를 생성할 수 있습니다. 저는 이미 기존의 API 키를 가지고 있으므로 그것을 사용할 것입니다. 그리고 저는 Google Colab을 사용하기 때문에, 여기에서 제 API 키를 비밀로 설정하고 이 노트북에 특정 키의 접근을 허용했습니다. 이제 Groq 클라이언트를 가져와야 합니다. 이 Groq 함수를 사용하여 Groq 클라이언트를 생성하고, 우리의 API 키를 제공해야 합니다. 그래서 저는 Google Colab 노트북 내의 Secrets에서 직접 읽고 있기 때문에, Google Colab API 클라이언트 내의 이 user data 함수를 사용하고 있습니다.
“좋아요, 이것이 클라이언트를 설정하는 방법입니다만, 추론을 어떻게 하는지 보겠습니다. 꽤 간단하고 명확합니다. 여기에서 차트 완성 엔드포인트를 사용할 것입니다. 새로운 메시지를 생성할 거고, 지금은 사용자 역할만 사용하고 있습니다. 사용자가 질문을 하고, 프롬프트는 “저 지연 LLM의 중요성을 설명하세요. 존 스노우의 목소리로 설명하세요.”입니다. 나중에 시스템 메시지도 추가할 수 있습니다. 그 방법을 보여드리겠습니다. 그리고 나서 모델의 이름을 제공해야 합니다. 이 비디오가 녹화 된 시점에서, 문서 페이지에는 지원되는 모델 목록에 라마2 계열만 있습니다. 하지만, Groq Cloud의 책임자인 산디프가 친절하게도 그것이 사용 가능하다고 지적해주었습니다. 그래서 이 경우에는 그 모델, 70B를 사용했습니다. 그리고 정확히 같은 형식을 따라 컨텍스트 길이를 제공했고, 이것이 효과가 있는 것 같습니다. 아마도 이 비디오가 공개될 때 쯤이면 문서도 업데이트 되었을 겁니다. 그러니 실제 추론 속도를 보여드리겠습니다, 정말 놀랍습니다. 이제 이것을 실행할 텐 데, 이 메시지를 생성하고 API에 보내고 응답을 받은 다음, 파이썬이 여기에 출력할 것입니다.
여기 우리가 얻은 실제 생성 속도가 있습니다. 보시다시피 1초 미만인 것 같네요, API를 사용해서 이런 일을 할 수 있다는 게 정말 놀랍습니다. 우리는 700억 개의 모델을 운영 중입니다. 좋습니다, 다음으로, 시스템 메시지를 추가하는 방법을 살펴보겠습니다. 여기에서 메시지 흐름에 시스템 메시지를 추가하고 있습니다. 규칙은 “시스템”이며, 우리는 “당신은 도움이 되는 조수로서 존 스노우로 대답하세요”라고 말하고 있습니다. 그래서 나머지 프롬프트는 이전에 했던 것과 정확히 같습니다. 그리고 우리는 모델로 라마3를 선택하고 있습니다. 이제, 몇 가지 추가 매개변수도 전달할 수 있습니다. 예를 들어, 창의성이나 다른 토큰의 선택을 제어할 수 있는 온도를 설정할 수 있습니다. 또한 모델이 생성할 수 있는 최대 토큰 수도 전달할 수 있습니다. 이러한 매개변수는 선택 사항입니다. 이제 그 시스템 규칙으로, 여기 다시 실제 생성 속도가 있습니다. 이것은 꽤 빠릅니다. 보통 사용자가 응답을 기다리지 않도록 스트리밍을 추가하고 싶어 합니다 만, Groq은 정말 빠른 추론을 어떻게 해내는지 알아냈습니다. 하지만 스트리밍을 하고 싶다면, 여기 서도 실제로 가능합니다.
구조는 이전과 같습니다. 여기서 추가로 해야 할 일은 “stream”을 “true”로 설정하여 스트리밍을 활성화하는 것입니다. 우리는 지금 스트리밍 클라이언트를 만들고 있습니다. 스트리밍을 할 때, 한 번에 하나의 텍스트 덩어리를 받게 됩니다. 그래서 우리는 기본적으로 그 텍스트 덩어리를 받아 출력으로 출력한 다음, 다음 텍스트 덩어리가 도착하기를 기다렸다가 다시 보여주는 식으로 계속됩니다. 여기 실제 스트리밍 속도가 있습니다. 다시 실행해 보겠습니다. 좋습니다, 이것은 꽤 빠르며, 우리 모두가 알다시피 Groq는 이것으로 유명하지만, 현재 시장에서 구할 수 있는 가장 빠른 라마3 사용일 것입니다. 좋습니다, 그 밖에 몇 가지: Playground와 API 모두 현재 무료로 제공되므로 애플리케이션에서 완전히 무료로 사용할 수 있습니다. 곧 유료 버전을 도입할 가능성이 높지만, 무료이기 때문에 생성할 수 있는 토큰 수에 대한 제한이 있으므로 이를 확인해야 합니다. 좋습니다, 저는 라마3과 Groq 주변에서 훨씬 더 많은 콘텐츠를 만들 예정입니다. 관심이 있다면 채널 구독을 해주세요.
제 생각에 그들은 Groq에서 Whisper 지원 통합 작업도 하고 있는 것 같습니다. 그것이 구현되면 완전히 새로운 세대의 애플리케이션들이 등장할 가능성이 열릴 것입니다. 그래서 저는 사실 그것을 매우 기대하고 있습니다. 이 비디오가 유용했기를 바랍니다. 시청해주셔서 감사하고, 항상 그렇듯 다음 비디오에서 만나요.