5월 2주차 GDSC Sookmyung Weekly AI Trend
이거까지 그려준다고👀? 재미있는 Midjourney 작품들🤗
에디터 | 손수경
최근에 들어 다양한 Generator Model이 나오고 있고, 다양한 모델들을 소개해왔다. 오늘은 Midjourney에 대한 간단한 소개와 해당 모델을 통해서 생성한 재미있는 이미지들에 대해서 소개를 할 예정이다.
Midjourney는 discord에서 사용하고 있는 text-to-image 모델로, 원하는 이미지에 대한 설명을 discord를 통해서 입력을 하면 60초 이내로 이미지를 생성해주는 모델이다.
평소 접근성이 높았던 discord에서 소개하는 모델인 만큼 다양한 이미지들이 생성되고 있다.
Midjourney 생성된 이미지 살펴보기 ⏩ https://discord.com/invite/midjourney
discord를 통해서 생성된 다양한 이미지를 확인해볼 수 있는데 이미지들만 봐도 해당 모델에 대한 성능이 괜찮은 것을 확인할 수 있다.
사용자가 많은 discord에서 사용하는 생성 모델인 만큼 다양한 이미지들이 생성되었는데 다음은 재미있게 생성된 이미지들에 대해서 살펴보겠다.
⏫ prompt: Car designed by Walt Disney
⏫ 입력 단어로 “funny”를 넣은 경우
⏫ 이미지의 경우는 뱀파이어 아이들을 생성하고 싶었는데 이 정도까지만 나왔다고 한 이미지이다. 독자들은 어떻게 생각하는지 궁금하다. 필자의 경우는 옷과 분위기로는 뱀파이어 같지만 아이들의 표정은 그냥 놀란 표정 같아서 어떻게 입력을 해야 뱀파이어 아이들이 생성될 지 궁금하다.
References
- https://twitter.com/au_tweeter/status/1655900169580470274?s=46&t=YSY4NLgRt-x9AS9oXDXUIA
- https://twitter.com/heybarsee/status/1655684065440284672?s=46&t=YSY4NLgRt-x9AS9oXDXUIA
- https://twitter.com/dayv/status/1652452528997515264?s=46&t=YSY4NLgRt-x9AS9oXDXUIA
- https://www.aitimes.com/news/articleView.html?idxno=146302
ChatGPT, Google Bard, Bing AI 어떤 걸 써야할까?🙄
에디터 | 조유림
안녕하세요! 오늘은 ChatGPT, Google Bard, BingAI의 간단한 사용 후기로 글을 작성해볼까 합니다.
ChatGPT vs Bard vs Bing AI
ChatGPT Bard Bing
ChatGPT | Bard | Bing | |
Base Model | GPT-3.5, GPT-4 | LaMDA | GPT-4 |
제공사 | OpenAI | Microsoft Bing | |
사용하는 정보 | 2021년 09월 이전 학습 데이터 기반 | 실시간 접근 - Bard: 구글 검색 콘텐츠 기반 - Bing: Bing 검색 콘테츠 기반 |
|
한국어 지원 | O | X | O |
GPT와 LaMDA의 차이?
GPT와 LaMDA 모두 거대 언어 모델(LLM)이지만, 가장 큰 차이는 학습 데이터에 있습니다. GPT는 텍스트와 코드의 대규모 데이터셋을 사용하였으며, 사실적이고 잘 구성된 텍스트를 생성하는 데에 뛰어납니다. 한편 LaMDA는 인간 대화(human dialogues) 데이터셋을 학습에 사용하였으며, GPT보다 더 대화형 문장을 잘 생성한다는 특징을 가지고 있습니다.
ChatGPT, Bard, Bing 답변 구성 방식
Bard의 경우 아직 Waitlist에 등록해야 사용할 수 있으니, 사용하실 분들은 ‘Join waitlist’ 버튼을 클릭하시면 됩니다. 😀
비교하는 데 가장 큰 체감을 느낄 수 있는 것은, 하나의 공통 질문을 해보는 것이라고 생각하는데요. 그래서 ‘What is GDSC?’라는 간단한 질문을 각각의 챗봇에 프롬프팅 해 보았습니다.
ChatGPT
Bard
Bing
보시는 바와 같이 Google Bard에서 가장 좋은 답변을 해 주었고, Chat GPT의 경우 없는 정보이기 때문에 새로운 답변을 ‘생성’한 것을 확인할 수 있습니다.
개인적인 사용 후기
글 요약 및 교정, 자연스러운 문서 번역, 특정한 글의 생성은 ChatGPT
ChatGPT를 보통 어떻게 쓰시나요? 저의 경우 글을 요약하고, 교정하거나 자연스러운 문서 번역이 필요할 때, 특정 상황에서 작성하는 글의 기본 틀을 다져야 할 때 사용합니다. 또한 2021년 9월 이전에 발견된 논문이나, GPT를 활용한 크롬 익스텐션을 사용하여 글의 중심 내용을 파악하는 데 사용하고 있습니다. 따라서, 제가 추천하는 ChatGPT 사용 방식은 ‘검색’보다는 글을 ‘생성’하는 데에 조금 더 초점을 맞추어 사용하는 것입니다. Code Interpreter가 등장한 만큼, 다른 챗봇보다 코드를 짤 때 사용하는 것도 좋은 방법이라고 생각합니다!
검색을 기반으로 한 깔끔한 정리가 된 내용을 받아보고 싶다면 Google Bard
한국어 지원을 안 하는 건 매우 아쉬운 부분이지만, Bard를 사용하면서 남은 인상은 ‘깔끔하다’ 였습니다. UI가 매우 깔끔하고, 제공되는 답변 역시 표와 토글을 사용하여 다른 챗봇보다 비교적으로 깔끔하게 답을 준다는 느낌을 받습니다. 위에서 같은 질문에 대해 답변을 비교한 내용을 보면 알겠지만, 잘 검색해서 잘 보여준다는 것을 보여줍니다. Bing 처럼 검색 할 때 AI 채팅을 보여주지 않아, Bard 사이트에 들어가서 검색해야 한다는 약간의 불편함은 있지만 그럼에도 불구하고 충분히 검색 기반의 내용 정리를 받아 보고 싶을 때 사용하는 것을 추천합니다.
검색 내용과 함께 답변을 바고, 답변 출처를 빠르게 접근하고 싶다면 Bing
Bing은 ChatGPT, Bard와는 달리 답변을 제공하는 데에 어떤 내용을 참고했는지 출처 사이트를 제공해준다는 장점이 있습니다. 요약된 정보로는 이해하는 데에 한계가 있기 때문에 좀 더 자세한 정보를 얻고 싶은 경우 Bing에서 제공하는 출처를 확인하시는 것을 추천드립니다. 다만, Microsoft Edge에서만 사용이 가능하기에 접근성이 다소 떨어진다는 단점이 있습니다.
References
AudioGPT, 오디오 모델과 결합한 GPT
에디터 | 송지빈
최근 방대한 웹 상의 텍스트 데이터와 강력한 아키텍처 모델들로 인해 대규모 언어모델들(LLMs)은 사람처럼 읽고, 쓰고, 대화할 수 있게 되었습니다.
ChatGPT와 같이, 텍스트 처리와 생성 분야에서는 많은 성공적인 Application이 있었지만, 음악, 사운드, 대화 등과 같은 오디오 분야는 아직 많은 발전이 이루어지지 않았습니다.
실제 세상에서 인간은 일상적인 대화에서 음성 언어를 사용하여 의사소통을 하고, 음성 비서를 사용하여 생활을 더 편리하게 할 수 있습니다. 따라서 오디오 모달은 삶과 밀접하며, 꼭 필요한 기술이라고 할 수 있습니다.
그렇다면 LLMs에 오디오 모달 기술을 적용하려면 어떻게 해야할까요?
저장대학교, 북경대학교, 카네기멜론대학교, 중국 레민대학교의 연구진은 이 연구에서 음성 대화에서 오디오 양식을 이해하고 생성하는 데 탁월한 시스템인 'AudioGPT'를 선보였습니다.
연구 논문에서는 다음과 같은 방식으로 진행되었습니다.
- 멀티모달 LLM을 처음부터 학습하는 대신 다양한 오디오 기반 모델을 사용하여 복잡한 오디오 정보를 처리합니다.
- 음성 언어 모델을 훈련하는 대신 음성 대화를 위해 입력/출력 인터페이스로 LLM을 연결합니다.
- AudioGPT가 수많은 오디오 이해 및 생성 작업을 해결할 수 있도록, 범용 인터페이스로 LLM을 사용합니다.
입력/출력 인터페이스, ChatGPT, 음성 언어를 사용하면 음성을 텍스트로 변환하여 보다 효과적으로 커뮤니케이션할 수 있습니다. ChatGPT는 대화 엔진과 프롬프트 관리자를 사용하여 오디오 데이터를 처리할 때 사용자의 의도를 파악합니다. AudioGPT 프로세스는 아래 그림과 같이 네 개의 부분으로 구분할 수 있습니다:
- Transformation of modality
- 입력/출력 인터페이스, ChatGPT 및 음성 언어 LLM을 사용하면 음성을 텍스트로 변환하여 보다 효과적으로 커뮤니케이션할 수 있습니다.
- Analysis of tasks
- ChatGPT는 대화 엔진과 프롬프트 관리자를 사용하여 오디오 데이터를 처리할 때 사용자의 의도를 파악합니다.
- Assignment of a model
- ChatGPT는 운율, 음색 및 언어 제어에 대한 구조화된 인수(변수)를 받은 후 이해 및 생성을 위한 오디오 기반 모델을 할당합니다.
- Response Design
- 오디오 파운데이션 모델 실행 후 최종 답변을 생성하여 소비자에게 제공합니다.
위 연구에서는 정교한 오디오 작업을 위한 오디오 기반 모델을 ChatGPT에 제공하는 AudioGPT를 제안하였습니다.
모달리티 변환 인터페이스는 음성 커뮤니케이션을 가능하게 하는 범용 인터페이스로서 ChatGPT와 결합됩니다. 이 논문에서는 다중 모달 LLM의 설계 개념과 평가 절차를 설명하고 AudioGPT의 일관성, 용량, 견고성을 평가합니다.
AudioGPT는 수많은 대화를 통해 오디오를 효과적으로 이해하고 생성하여 이전에는 불가능했던 단순함으로 풍부하고 다양한 오디오 자료를 제작할 수 있게 해줍니다. 이 코드는 깃허브에서 오픈소스로 공개되었습니다.
논문 링크
깃허브 링크
⚕️ 보건 및 의료분야의 인공지능
에디터 | 정시은
이번주에는 Medical AI 에 대해 알아볼텐데요, 에릭토폴 교수님과 엔드류응 교수님이 만드신 Doctor Penguin에서 2년간 정리해온 헬스케어와 의료분야에서의 AI 동향에 대한 리뷰페이퍼를 톺아보는 시간을 가지려 합니다.
의료분야에서의 AI 알고리즘의 최근 발전
최근 몇년동안 딥러닝은 이미지 분류에서 놀라운 성공을 거뒀는데, 의료 AI 연구는 방사선학, 병리학, 위장병학 및 안과학과 같이 이미지 해석에 크게 의존하는 분야에서 큰 발전을 이뤘습니다.
AI 시스템은 유방조영술 해석, 심장 기능 평가 및 폐암 선별을 포함한 방사선 작업의 정확도에서 상당한 개선을 이루어냈으며 진단뿐만 아니라 위험 예측 및 치료도 다루고 있습니다. 병리학 분야에서는 AI는 주로 슬라이드 영상을 사용해 암을 진단하고 새로운 질병 통찰력을 제공하는데 큰 진전을 이뤘습니다. 실질적인 영향을 넘어서 심층 신경망은 주요 종양 기원을 식별하고 구조적인 변형과 돌연변이를 감지하도록 훈련되어 효과적이라고 합니다. 또한 안과 분야에서 딥러닝 모델은 중요한 발전을 이뤘는데요. 한 연구는 AI 스크리닝이 당뇨병 망막증의 감지와 같은 특정상황에서 비용절감을 제공할 수 있다는 것을 발견하기도 했습니다.
알고리즘
메디컬 AI 연구는 이미지 분류 문제를 해결하고 레이블이 지정된 데이터에 대해 지도학습을 사용해 훈련한 다음 전문가와 비교해 시스템을 평가하는 익숙한 패턴을 따릅니다. 이 논문에서는 이 틀에서 벗어나는 세가지 유망한 연구방법을 제시합니다.
먼저, 풍부한 의학적 통찰력을 제공할 수 있는 텍스트나 게놈 시퀀스와 같이 비이미지 데이터소스를 다루고, 지도학습을 넘어 비지도 학습과 같이 레이블이 지정되지 않았거나 불완전한 데이터로부터 통찰력을 얻는 문제에 대해 논의합니다. 마지막으로, 인간과 협업하는 AI 시스템에 대해 논의합니다.
- Medical data beyond images
이미지 분류를 넘어 딥러닝 모델은 숫자,텍스트를 비롯해 많은 종류의 입력데이터로부터 학습할 수 있습니다. 최근 연구는 분자정보, 자연어, 뇌파 데이터 및 멀티모달 데이터와 같은 의료 신호와 관련된 다양한 데이터 소스를 도출했습니다.
분자분석을 위한 딥러닝 모델은 물리적 실험의 필요성을 줄여 새로운 약물의 발견을 가속화하는 것으로 나타났습니다. 한 연구는 AI를 사용해 항생제 내성 박테리아와 싸우는데 효과적으로 입증된 약물을 식별했습니다. 딥러닝 모델이 기존 약물과 다른 효과적인 분자를 선택해 새로운 도구를 제공할 수 있다는것이 주목해야할 점입니다.
또한 최근 연구에서 트랜스포머 및 상황별 단어 임베딩과 같은 기술 발전을 활용해 의료 관련 자연어처리 관련 작업에서 사용된다고 합니다. 한 연구는 대규모 의료 문서 말뭉치에 대해 훈련된 모델인 BioBERT를 제시했습니다. 이 모델은 방사선 보고서에 자동으로 레이블을 지정하는 것과 같은 작업에서 성능을 향상시키는데 사용됐습니다. 긴 텍스트 시퀀스에서 정보를 추출하는 것이 어렵기 때문에 한계가 여전히 존재하지만 자연어 처리의 발전은 의료 텍스트 데이터에 영향을 미칩니다.
그리고 ML은 심전도와 같은 의료 신호 데이터의 결과를 예측하기 위해서도 사용되었습니다. 뇌파를 음성이나 텍스트로 직접변환하는 AI는 뇌졸중을 앓는 실어증환자에게 주목할만한 잠재적 가치가 있습니다. - AI setups beyond supervised learning
전통적인 연구 방식에서 레이블링은 비용과 시간이 많이 들기 때문에 정확한 입력과 레이블을 모두 포함하는 데이터세트는 종종 얻기 어렵고 많은 연구에서 재사용된다고 합니다. 비지도학습은 데이터가 레이블이 지정되지 않거나 노이즈가 많은 문제를 해결하는데 사용됩니다. 이러한 발전은 의료 AI의 경계를 넓히고 질병에 대한 이해를 높였습니다. 또한 모델이 기존 레이블에 제한되지 않고 새로운 패턴과 범주를 찾을 수 있도록 도와줍니니다. - Setups beyond human versus AI
대부분의 연구가 AI를 인간과 직접 비교하는데에 초점을 맞췄지만, 실제 의료행위는 인간과 AI 시스템이 적극적으로 협력할 가능성이 높습니다. 따라서 최근 연구는 인공지능과 인간 사이의 이러한 협업설정을 탐구하기 시작했습니다. 다양한 작업에 대한 연구 결과에 따르면 임상전문가와 AI가 결합한 것이 전문가 단독보다 더 나은 성능을 달성하는 것으로 나타났습니다.
그러나 AI의 지원이 인간의 성과에 어떻게 영향을 미치는지에 대한 해결되지 않은 문제들은 여전히 있으므로 의료 AI 지원 최적화에 대한 향후 연구가 계속되어야한다고 생각합니다.
Medical field의 미래에 대한 과제
이러한 발전에도 불구하고 medical AI 분야는 사용자 신뢰 및 학습 데이터 세트 구성 측면에서 주요 기술적 과제에 직면해있습니다. 의학에서 AI의 규제와 AI가 의료 시스템 전반에 걸쳐 책임을 전환하고 창출할수 있는 방식에 대한 질문도 남아있습니다. 마지막으로, 의료 AI의 데이터 사용및 형평성에 대한 중요한 윤리적 문제도 존재합니다.
의료 AI 분야는 상당한 진전을 이뤘지만, 검증 및 구현은 초기 단계에 머물러 있다고 합니다. 현장에서는 더 많은 테스트와 실용적인 해결책이 필요하지만, 과감한 상상력도 필요로 한다고 해요. 앞서 요약한것과 같이 이미지가 아닌 데이터 유형, 비지도학습을 이용하는 등의 새로운 AI 연구를 위한 풍부한 기회가 있습니다. 이 분야의 잠재력에도 불구하고 윤리적인 질문은 여전히 남아있어서 이런 문제가 체계적으로 해결됨에 따라 AI가 의학의 미래를 현저하게 개선할 수 있을 듯 합니다.
References
cse.unr.edu/~bebis/CS791/Fall2022/Papers/AI_Medicine/2022 - AI in health and medicine.pdf