Как да намалим разходите за използване на ChatGPT и GPT-4

В света на изкуствения интелект, големите езикови модели (LLM) като ChatGPT и GPT-4 са изключително удобни. С няколко API извиквания можем да ги накараме да извършват впечатляващи задачи. Въпреки това, когато използваме LLM за реални приложения, които изпращат хиляди API извиквания на ден, разходите могат бързо да се натрупат. Може да се окаже, че плащате хиляди долари на месец за изпълнение на задачи, които биха изисквали само малка част от тези ресурси.
Според скорошно проучване на учени от Станфордския университет, обаче, можем значително да намалим разходите за използване на GPT-4, ChatGPT и други LLM API. В статията си, озаглавена "FrugalGPT", те представят няколко техники за намаляване на разходите за LLM API с до 98%, докато същевременно поддържат или дори подобряват тяхното представяне.
Кой езиков модел API трябва да използвате?
GPT-4 е безспорно най-способният голям езиков модел. Но също така е и най-скъпият. И разходите само нарастват, когато въведените данни стават по-дълги. В много случаи, можете да намерите друг езиков модел, доставчик на API или дори въведени данни, които могат да намалят разходите за извличане на информация. Например, OpenAI предлага широк спектър от модели, чиито разходи варират от $0.0004 до $0.12 на 1000 символа, разлика от 300 пъти. Освен това, можете да опитате други доставчици като AI21 Labs, Cohere и Textsynth за други възможности за ценообразуване.
Три стратегии за намаляване на разходите за използване на GPT-4 и ChatGPT
Адаптация на въведените данни
Всички LLM API имат ценова модел, който е функция на дължината на въведените данни. Ето защо най-простият начин да намалите разходите за използване на API е да съкратите въведените данни. Има няколко начина да го направите.
За много задачи, LLM изисква няколко въведени данни. Това означава, че за подобряване на представянето на модела, трябва да добавите към въведените данни няколко примера, обикновено във формат въведени данни->отговор. Рамки като LangChain предоставят инструменти, които ви позволяват да създадете шаблони, които включват няколко примера.
С поддържането на по-дълги и по-дълги контексти, разработчиците понякога имат тенденция да създават много големи шаблони, за да подобрят точността на модела. Въпреки това, моделът може да не се нуждае от толкова много примери.
Учените предлагат "избор на въведени данни", където намалявате броя на примерите до минимално количество, което запазва качеството на изхода. Дори ако можете да отстраните 100 символа от шаблона, това може да доведе до огромни спестявания, когато се използва много пъти.
Друга техника, която предлагат, е "конкатенация на въведените данни", където групирате няколко въведени данни в едно и карате модела да генерира множество изходи с едно извикване. Отново, това е особено ефективно при използване на няколко въведени данни. Ако изпращате въпросите си един по един, ще трябва да включите примерите с всяко въведено. Но ако обедините въведените данни, ще трябва да изпратите контекста само веднъж и да получите няколко отговора в изхода.
Приближение на LLM
Друго решение за намаляване на разходите е да се намали броят на API извикванията, направени към LLM. Учените предлагат да приближат скъпите LLM "с помощта на по-достъпни модели или инфраструктура".
Един метод за приближаване на LLM е "кеш на завършване", при който съхранявате въведените данни и отговорите на LLM във вътрешен сървър. Ако потребител подаде въведени данни, които са идентични или подобни на предварително кеширани въведени данни, вземате кеширания отговор, вместо да заявите модела отново. Въпреки че имплементирането на кеш на завършване е лесно, то има някои сериозни компромиси. Първо, това намалява креативността и вариациите на отговора на LLM. Второ, приложимостта му ще зависи от това колко подобни са заявките на потребителите. Трето, кешът може да стане много голям, ако съхранените въведени данни и отговори са много разнообразни. Накрая, ако изходът на LLM зависи от контекста на потребителя, тогава кеширането на отговорите няма да бъде много ефективно.
LLM каскада
По-сложно решение е да се създаде система, която избира най-добрия API за всяко въведено. Вместо да изпраща всичко към GPT-4, системата може да бъде оптимизирана да избира най-евтиния LLM, който може да отговори на въведените данни на потребителя. Това може да доведе до намаляване на разходите и подобряване на производителността.
Учените предлагат метод, наречен "LLM каскада", който работи по следния начин: Приложението следи списък от LLM API, които варират от прости/евтини до сложни/скъпи. Когато приложението получи ново въведено, то започва, като го изпраща към най-простия модел. Ако отговорът е надежден, то спира и го връща на потребителя. Ако не, то продължава по каскадата и заявява следващия езиков модел. Ако получите надеждни отговори рано в процеса, ще намалите разходите за приложението си значително.
FrugalGPT
Учените имплементираха стратегията на LLM каскада с FrugalGPT, система, която използва 12 различни API от OpenAI, Cohere, AI21 Labs, Textsynth и ForeFrontAI.
Те тестваха FrugalGPT с няколко естествени езикови бенчмарка. Първоначалните им резултати показват, че са успели да намалят разходите с порядъци, докато понякога подобряват производителността.
Учените пишат, "FrugalGPT позволява гладки търговски отношения между производителност и разходи върху всички оценени набори от данни. Това предлага гъвкави избори на потребителите на LLM и потенциално помага на доставчиците на LLM API да спестят енергия и да намалят емисиите на въглероден диоксид. Всъщност, FrugalGPT може едновременно да намали разходите и да подобри точността."
Заключение
Използването на големи езикови модели като GPT-4 и ChatGPT може да бъде изключително полезно, но също така може да бъде и скъпо. С новите техники и стратегии, разработени от учени от Станфордския университет, обаче, можем значително да намалим разходите за използване на тези модели, докато поддържаме или дори подобряваме тяхното представяне.Това отваря възможности за по-ефективно и икономически ефективно използване на тези мощни инструменти в бъдеще.
Често задавани въпроси
- Как мога да намаля разходите за използване на GPT-4 и ChatGPT?
- Можете да намалите разходите, като адаптирате въведените данни, приближите LLM с помощта на по-достъпни модели или инфраструктура, или използвате LLM каскада, която избира най-добрия API за всяко въведено.
- Какво е FrugalGPT?
- FrugalGPT е система, разработена от учени от Станфорд, която използва 12 различни API от различни доставчици, за да намали разходите за използване на големи езикови модели, докато поддържа или подобрява тяхното представяне.
- Как работи LLM каскада?
- LLM каскада е метод, при който приложението следи списък от LLM API, които варират от прости/евтини до сложни/скъпи. Когато приложението получи ново въведено, то започва, като го изпраща към най-простия модел. Ако отговорът е надежден, то спира и го връща на потребителя. Ако не, то продължава по каскадата и заявява следващия езиков модел.
- Как мога да адаптирам въведените данни, за да намаля разходите?
- Можете да намалите въведените данни, като намалите броя на примерите до минимално количество, което запазва качеството на изхода, или като групирате няколко въведени данни в едно и карате модела да генерира множество изходи с едно извикване.
- Как мога да приближа LLM, за да намаля разходите?
- Можете да приближите LLM, като използвате кеш на завършване, при който съхранявате въведените данни и отговорите на LLM във вътрешен сървър, или като използвате по-достъпни модели или инфраструктура.
Използвани източници
- Stanford University: "FrugalGPT: How to Reduce the Costs of Language Model APIs by 98%"
- OpenAI: Pricing
- AI21 Labs: Pricing
- Cohere: Pricing
- Textsynth: Pricing
- ForeFrontAI: Pricing
Тази статия е написана от Тони Ангелчовски и е публикувана ексклузивно във форума на DT Garage. Всички права са запазени. Забранено е всякакво копиране, разпространение или използване на тази статия без изричното писмено разрешение на автора.
Знаете ли, че работим 24x7, за да ви предоставим най-добрите статии и уроци...?