논문리뷰 - Chain of Agents: Large Language Models Collaborating on Long-Context Tasks
·
공부/논문
https://arxiv.org/abs/2406.02818 Chain of Agents: Large Language Models Collaborating on Long-Context TasksAddressing the challenge of effectively processing long contexts has become a critical issue for Large Language Models (LLMs). Two common strategies have emerged: 1) reducing the input length, such as retrieving relevant chunks by Retrieval-Augmented Generarxiv.org2025.04.07기준 25회 인용긴 conte..
논문리뷰(작성중) - A Survey on In-context Learning
·
공부/논문
GPT-3 논문을 읽으며, In-context Learning(ICL)에 대한 설명을 보며 이해가 잘 되지 않았기 때문에, 관련 서베이 논문을 리뷰하며 ICL에 대한 이해를 해보려고 한다.  https://arxiv.org/abs/2301.00234 A Survey on In-context LearningWith the increasing capabilities of large language models (LLMs), in-context learning (ICL) has emerged as a new paradigm for natural language processing (NLP), where LLMs make predictions based on contexts augmented with a few..
논문리뷰 - Mixture of Agents Enhances Large Language Model Capabilities (MoA)
·
공부/논문
본 논문은 MoA 방법론을 통해 여러 LLM의 집단적 강점을 활용하는 새로운 접근 방식 프레임워크를 제안한다.MoE에서 영감을 받았다고 본 논문에서 언급하고 있으며, 기존 MoE 구조는 단일 모델 내에서의 확장이였다면MoA는 파라미터 추가 조정 없이 LLM Agents의 집단 전문성을 활용한 계층 구조이다. https://arxiv.org/abs/2406.04692 Mixture-of-Agents Enhances Large Language Model CapabilitiesRecent advances in large language models (LLMs) demonstrate substantial capabilities in natural language understanding and generati..
논문리뷰 - LLM-Pruner: On the Structural Pruning of Large Language Models
·
공부/논문
LM-Pruner에 대한 논문이다.구조적인 가지치기 방법을 통해 LLM 모델을 압축하고, LoRA를 활용하여 성능을 효율적으로 복구하는 것이 핵심 아이디어이다.   https://arxiv.org/abs/2305.11627 LLM-Pruner: On the Structural Pruning of Large Language ModelsLarge language models (LLMs) have shown remarkable capabilities in language understanding and generation. However, such impressive capability typically comes with a substantial model size, which presents signifi..
논문리뷰 - (GPT-1) Improving Language Understandingby Generative Pre-Training
·
공부/논문
GPT-1 논문에 대한 리뷰를 진행해보려고 한다. 레이블링된 텍스트 데이터가 제한적인 상황에서 자연어 이해와 학습된 model이 task를 적절히 수행하는데 어려움이 있었는데, generative pre-traning과 fine-tuning을 통해 레이블되지 않은 corpus를 사용한 task에서 큰 성과를 얻었다고 한다.  본 논문은 Transformer, Attention 및 자연어 처리 부분에 대한 기초지식이 있다는 가정 하에 설명하도록 하겠다.  paper linkhttps://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf   1. Introductionraw text에서 효과적으로 학습하는..
논문리뷰 - AN IMAGE IS WORTH 16x16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE (ViT)
·
공부/논문
Transformer가 NLP에서 큰 변화를 일으켰는데, 이 Transformer를 Vision 분야에서 적용하는 방법에 대한 논문이다. ViT는 Vision Transformer의 약자이며, 본 논문리뷰는 Transformer와 CV(Computer Vision)에 대한 기초지식이 있다는 전제하에 설명한다.  Word에서 먼저 정리하고, Tistory 블로그에 다시 한번 정리하는데 Word에서 만든 수식들을 블로그 글에서 인식을 못하기 때문에, 부득이하게 중간에 글을 캡쳐로 넣는 부분이 생겼다. 양해를 바란다. https://arxiv.org/abs/2010.11929 An Image is Worth 16x16 Words: Transformers for Image Recognition at ScaleW..
논문리뷰 - BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
·
공부/논문
BERT에 대한 논문리뷰를 진행해보려고 한다. Transformer, 그리고 인공지능 기본지식이 있다는 전제하에 설명한 글이다.  https://arxiv.org/abs/1810.04805 BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingWe introduce a new language representation model called BERT, which stands for Bidirectional Encoder Representations from Transformers. Unlike recent language representation models, BERT is designed to pre-train ..
논문리뷰 - Attention Is All You Need
·
공부/논문
처음으로 논문을 읽고 복기하며 정리해보려고 한다. "Attention Is All You Need"는 Google 소속 과학자 8명이 2017년에 작성한 연구논문이다. 기존 RNN,CNN의 병렬 처리가 불가능했던 문제를 본 논문에서 트랜스포머(Transformer) 아키텍처를 제안하여 화제가 되었고 이를 활용하여 머신러닝 분야에서 정말 많은 것이 바뀌었다고 한다.  우선, 어텐션과 셀프 어텐션의 개념을 이해하는데 생각보다 힘들었어서, 정리해놓고 틈틈히 확인해보려고 먼저 정리해보았다. Attention vs. Self-Attention위 예시 문장에서, "Who is the singer?" 라는 질문을 하게 된다면, 단어 하나하나 주어진 정보들을 조합하여 'singer'와의 관련성을 확인해야 할 것이다. ..
밑바닥부터 시작하는 딥러닝2 - Chap8. 어텐션(Attention)
·
공부/밑바닥부터 시작하는 딥러닝
앞챕터에서 RNN을 사용해 문장을 생성했다. 2개의 RNN을 연결하여 시계열 데이터를 다른 시계열 데이터로 변환도 해봤다.(seq2seq) 이번 챕터에서는 seq2seq의 가능성, 그리고 RNN의 가능성을 한걸음 더 깊이 탐험한다.어텐션(Attention)은 스테이블 디퓨전같은 생성 모델을 포함하여, 최근 딥러닝 분야에서 중요한 기술 중 하나이다. 어텐션의 구조seq2seq를 한층 더 강력하게 하는 어텐션 매커니즘을 소개한다.텐션 매커니즘 덕분에 seq2seq는 인간처럼 필요한 정보에만 주목할 수 있다.  seq2seq의 문제점seq2seq에서는 Encoder가 시계열 데이터를 인코딩한다. 인코딩된 정보를 Decoder로 전달한다.이때 Encoder의 출력은 고정 길이의 벡터였다. 이 고정 길이에 큰 문..
밑바닥부터 시작하는 딥러닝2 - Chap7. RNN을 사용한 문장 생성
·
공부/밑바닥부터 시작하는 딥러닝
chap 5,6에 걸쳐 RNN과 LSTM의 구조와 구현을 살펴보았다. 이번 장에서는 언어 모델을 사용해 문장 생성을 수행한다.구체적으로는 우선 말뭉치를 사용해 학습한 언어 모델을 이용하여 새로운 문장을 만들어낸다. 그 다음 개선된 언어 모델을 이용해 더 자연스러운 문장을 생성하는 모습을 선보일 것이다. 여기까지 해보면 'AI로 글을 쓰게 한다'라는 개념을 알 수 있을 것이다.  seq2seq의 신경망도 다룬다. (from) sequence to sequence(시계열에서 시계열로)를 뜻하는 말로, 한 시계열 데이터를 다른 시계열 데이터로 변환하는 것을 말한다. seq2seq는 기계 번역, 챗봇, 메일의 자동 답신 등 다양하게 응용될 수 있다.   언어 모델을 사용한 문장 생성언어 모델은 다양한 애플리케이..