[1/95] Understanding the Weakness of Large Language Model Agents within a Complex Android Environment Keywords: task_evaluation_androidarena, planning_llm_agents, challenges_motivate_androidarena Abstract: 대규모 언어 모델(LLM)은 지능형 에이전트가 브라우저나 게임과 같은 도메인별 소프트웨어 내에서 복잡한 작업을 실행할 수 있는 역량을 강화해 왔습니다. 하지만 운영 체제와 같은 범용 소프트웨어 시스템에 적용할 경우 LLM 에이전트는 세 가지 주요 과제에 직면하게 됩니다. 첫째, 작업 공간이 방대하고 동적이기 때문에 LLM 에이전트가 최신 상태..