🍞 오늘의 AI 논문 [2024-01-26]

Paper Tale/Archive of arxiv

🍞 오늘의 AI 논문 [2024-01-26]

다각 2024. 2. 21. 09:35

[1/80] Towards Autonomous Supply Chains: Definition, Characteristics, Conceptual Framework, and Autonomy Levels

Keywords: supply_chain_autonomy, autonomous_supply_chains, supply_chain
Abstract: 최근 팬데믹과 지정학적 분쟁과 같은 글로벌 혼란으로 인해 기존 공급망의 취약성이 크게 드러나면서 보다 탄력적인 대안을 모색해야 할 필요성이 커졌습니다. 자율 공급망(ASC)은 격변하는 무역 환경에서 향상된 가시성, 유연성, 복원력을 제공하는 잠재적 솔루션으로 부상했습니다. 업계와 학계에서 수년에 걸친 논의에도 불구하고 ASC에 대한 이론적 토대가 제대로 확립되어 있지 않습니다. 이 백서에서는 ASC의 공식적인 정의와 함께 그 특징 및 보조 개념을 제시함으로써 이러한 연구 격차를 해소합니다. 이를 위해 MIISI 모델이라는 계층화된 개념적 프레임워크를 제안합니다. 육류 공급망에 초점을 맞춘 사례 연구를 통해 이 개념적 모델을 기반으로 한 초기 ASC 구현을 보여줍니다. 또한 7단계 공급망 자율성 참조 모델을 소개하여 완전한 공급망 자율성을 달성하기 위한 궤적을 설명합니다. 이 작업은 초기 단계의 노력이라는 점을 인식하고 이 새로운 영역에 대한 지속적인 탐구가 필요하다는 점을 강조합니다. 이번 연구가 이론적, 기술적 측면에서 추가적인 연구를 촉진하고 ASC의 지속적인 진화에 기여할 것으로 기대합니다. [abs|pdf]

[2/80] Agent-based Simulation with Netlogo to Evaluate AmI Scenarios

Keywords: simulates_airport_agent, netlogo_agents, agent_architecture_ontology
Abstract: 이 백서에서는 에이전트 기반 시뮬레이션을 개발하여 에이전트 기반의 AmI 시나리오를 평가합니다. 많은 AmI 애플리케이션이 에이전트를 통해 구현되지만 에이전트 사용의 상대적 이점을 평가하기 위해 기존의 다른 대안과 비교하지는 않습니다. 넷 로고에서 개발한 제안서 시뮬레이션 환경은 두 가지 평가 기준을 사용하여 이러한 이점을 분석합니다: 첫째, 실행 과정에서 다양한 유형의 욕구에 대한 에이전트의 만족도를 측정합니다. 둘째, 컨텍스트 정보의 올바른 사용을 통해 얻을 수 있는 시간 절약 효과를 측정합니다.
따라서 여기서는 앞서 제안한 에이전트 아키텍처인 온톨로지 및 공항 내 AmI 서비스 제공을 위한 12단계 프로토콜을 NetLogo 시뮬레이션 환경을 사용하여 평가합니다. 본 연구에서는 이러한 응용 도메인의 확장성 문제를 고려하되, 이전 연구 및 이전에 구현한 JADE와 일관성을 유지하기 위해 FIPA 및 BDI 확장을 사용하는 NetLogo 모델을 사용합니다.
제시된 NetLogo 모델은 에이전트 사용자가 여권 심사대, 항공사 체크인 카운터, 탑승구, 다양한 유형의 쇼핑 등 지도의 특정 순서대로 위치한 여러 구역을 통과하는 공항을 시뮬레이션합니다. 시뮬레이션의 초기 데이터는 무작위로 생성되고 이 모델은 실제 공항의 근사치일 뿐이지만, NetLogo 에이전트를 통한 이 사례는 주변 환경 인텔리전스 사용의 이점을 평가할 수 있는 흥미로운 방법을 제시하여 최종 개발에 큰 기여를 할 수 있습니다. [abs|pdf]

[3/80] Generating Likely Counterfactuals Using Sum-Product Networks

Keywords: counterfactual_explanations_modeled, generating_counterfactual_explanations, counterfactual_explanations_popular
Abstract: 사용자 요구와 최근의 규제(GDPR, 인공지능법)로 인해 인공지능 시스템이 내린 결정에 대해 설명할 필요가 있습니다. 이러한 결정은 사후적으로만 설명할 수 있는 경우가 많기 때문에 사실과 반대되는 설명이 널리 사용됩니다. 무엇이 최선의 역설적 설명을 구성하는지에 대한 질문은 여러 측면을 고려해야 하는데, 그 중 '표본과의 거리'가 가장 일반적입니다. 우리는 이 요건이 종종 가능성이 낮고 따라서 가치가 제한적인 설명으로 이어진다고 주장합니다. 여기에서는 가능성이 높은 설명을 제공하는 시스템을 소개합니다. 우리는 사실과 반대되는 설명에 대한 여러 가지 일반적인 요구 사항을 충족하는 가장 가능성 높은 설명을 찾는 작업이 혼합 정수 최적화(MIO)를 사용하여 모델링될 수 있음을 보여줍니다. 이 과정에서 총산출 네트워크(SPN)의 MIO 공식을 제안하고, SPN을 사용하여 독립적인 관심사가 될 수 있는 반사실 가능성을 추정합니다. 반사실 설명을 생성하는 여러 가지 방법과 수치 비교를 제공합니다. [abs|pdf]

[4/80] A New Paradigm for Counterfactual Reasoning in Fairness and Recourse

Keywords: counterfactuals_counterfactual_reasoning, counterfactual_reasoning, interventional_counterfactuals
Abstract: 역사실과 역사실 추론은 인공 지능(AI) 시스템을 감사하고 이해하기 위한 수많은 기법의 기반이 됩니다. 이 문헌에서 역설적 추론의 전통적인 패러다임은 가상의 개입을 상상하고 시뮬레이션하는 개입적 역설입니다. 따라서 AI에서 법적 보호 및 인구통계학적 데이터에 대한 인과적 추론의 출발점은 민족, 인종, 성별, 장애, 연령 등과 같이 법적으로 보호되는 특성에 대한 가상의 개입입니다. 예를 들어, 인종이 달랐다면 어떻게 되었을까요? 이 패러다임의 내재적 한계는 인종에 대한 개입과 같은 일부 인구통계학적 개입이 개입적 반실재의 형식주의로 해석되지 않을 수 있다는 것입니다. 이 연구에서는 법적으로 보호되는 특성에 대한 가상의 개입을 상상하는 대신, 이러한 특성을 고정된 상태로 유지하면서 다른 초기 조건을 상상하는 역추적 반실재에 기반한 새로운 패러다임을 탐구합니다. 그 대신, 실제로 존재하거나 존재할 수 있는 반사실적 결과를 설명할 수 있는 것은 무엇일까요? 이러한 대안적 프레임워크를 통해 우리는 동일한 사회적 관심사를 다루면서도 인구통계학적 개입에 의존하지 않는 근본적으로 다른 질문을 던질 수 있습니다. [abs|pdf]

[5/80] Domain-Independent Dynamic Programming

Keywords: dynamic_programming_didp, dynamic_programming_dp, dynamic_programming_description
Abstract: 조합 최적화 문제의 경우, 혼합 정수 프로그래밍(MIP) 및 제약 조건부 프로그래밍(CP)과 같은 모델 기반 패러다임은 선언적 문제 해결의 '성배'인 모델링과 문제 해결을 분리하는 것을 목표로 합니다. 우리는 동적 프로그래밍(DP)에 기반한 새로운 모델 기반 패러다임인 도메인 독립적 동적 프로그래밍(DIDP)을 제안합니다. DP가 새로운 것은 아니지만, 일반적으로 문제별 방법으로 구현되어 왔습니다. AI 계획에서 영감을 받아 상태 전이 시스템을 기반으로 DP 모델을 정의하는 형식주의인 동적 프로그래밍 설명 언어(DyPDL)를 소개합니다. 휴리스틱 검색 알고리즘을 사용하여 DyPDL 모델을 해결할 수 있음을 보여주고 7가지 DIDP 솔버를 제안합니다. 11개의 조합 최적화 문제 클래스의 일반적인 벤치마크 인스턴스에서 상용 MIP 및 CP 솔버(각각 MIP 및 CP 모델 해결)와 DIDP 솔버를 실험적으로 비교합니다. 그 결과 9개의 문제 클래스에서는 DIDP가, 9개의 문제 클래스에서는 CP가, 그리고 7개의 문제 클래스에서는 MIP와 CP가 모두 더 나은 성능을 보였습니다. [abs|pdf]

[6/80] AlphaMapleSAT: An MCTS-based Cube-and-Conquer SAT Solver for Hard Combinatorial Problems

Keywords: heuristic_search_cubing, cube_conquer_cnc, solvers_march_cubing
Abstract: 본 논문에서는 어려운 조합 문제를 효율적으로 풀기 위한 새로운 몬테카를로 트리 탐색(MCTS) 기반 큐브 앤 컨커(CnC) SAT 풀이 방법인 AlphaMapleSAT을 소개합니다. 다양한 어려운 조합 문제를 푸는 데 있어 CnC 솔버가 엄청난 성공을 거두었음에도 불구하고, CnC의 핵심인 룩헤드 큐브 기법은 수년 동안 크게 발전하지 못했습니다. 그 이유 중 하나는 입력 공식을 하위 공식으로 분할하여 전체 런타임을 최소화하면서 저렴하고 효과적인 새로운 큐빙 기법을 개발하는 것이 매우 어렵기 때문입니다.
March와 같은 최신 CnC 솔버에서 사용하는 룩어헤드 큐빙 기법은 최적의 분할 변수를 찾는 데 제약을 가함으로써 큐빙 비용을 낮게 유지합니다. 이와는 대조적으로, 연역적으로 구동되는 MCTS 기반의 룩어헤드 큐빙 기법은 큐빙 비용을 낮게 유지하면서 효과적인 큐브를 찾기 위해 더 심층적인 휴리스틱 검색을 수행합니다. 최소 코헨-스페커 문제나 램지 문제와 같은 까다로운 조합 문제에 대해 3월 CnC 솔버와 알파맵샛을 광범위하게 비교합니다. 또한 큐브 문제에 대한 MCTS 휴리스틱 검색의 효율성을 검증하기 위해 제거 연구를 수행했습니다. 그 결과 병렬 처리 시 최대 2.3배(순차 처리 시 최대 27배)의 실시간 속도 향상을 보였습니다. [abs|pdf]

[7/80] Explaining Image Classifiers

Keywords: explaining_image_classifiers, approaches_explanations_absence, explanations_absence
Abstract: 우리는 이미지 분류기를 설명하는 데 초점을 맞추고 있으며, Mothilal 외2021의 연구를 출발점으로 삼고 있습니다. 우리는 MMTS가 Halpern [2016]이 제안한 설명의 정의를 사용한다고 주장하지만, 실제로는 그렇지 않다는 것을 관찰했습니다. 대략적으로 말하자면, Halpern의 정의에는 필요성 조항과 충분성 조항이 있습니다. MMTS는 필요성 조항을 암시하는 요구 사항으로 대체합니다. 또한 Halpern의 정의에 따르면 상담원이 고려하는 옵션의 집합을 제한할 수 있습니다. 이러한 차이는 사소해 보일 수 있지만, 설명에 사소하지 않은 영향을 미칠 수 있습니다. 또한, 다른 접근법에서는 해결하기 어려웠던 두 가지 문제, 즉 부재에 대한 설명(예를 들어 종양 이미지 분류기가 "종양 없음"을 출력하는 경우)과 희귀한 이벤트(종양 등)에 대한 설명을 할퍼의 정의가 근본적으로 변경 없이 처리할 수 있음을 보여줍니다. [abs|pdf]

[8/80] Multimodal Pathway: Improve Transformers with Irrelevant Data from Other Modalities

Keywords: trained_data_modality, modality_processed_models, imagenet_model_audio
Abstract: 예를 들어, 오디오 또는 포인트 클라우드 데이터 세트로 ImageNet 모델을 개선하는 등 다른 양식의 관련 없는 데이터로 특정 양식의 트랜스포머를 개선할 것을 제안합니다. 우리는 대상 모달리티의 데이터 샘플이 다른 모달리티와 무관하다는 점을 강조하고 싶으며, 이는 우리의 방법이 서로 다른 모달리티의 쌍(예: CLIP) 또는 인터리브 데이터를 활용하는 다른 작업과 차별화된다는 점을 강조하고 싶습니다. 멀티모달 경로(Multimodal Pathway)라는 방법론을 제안합니다. 목표 양식과 이를 위해 설계된 변환기가 주어지면 다른 양식의 데이터로 학습된 보조 변환기를 사용하고 두 모델의 구성 요소를 연결하는 경로를 구성하여 목표 양식의 데이터를 두 모델에서 모두 처리할 수 있도록 합니다. 이러한 방식으로 두 가지 양식에서 얻은 트랜스포머의 보편적인 시퀀스 간 모델링 기능을 활용합니다. 구체적인 구현으로, 평소와 같이 모달별 토큰화 및 작업별 헤드를 사용하지만 추론 비용 없이 보조 가중치를 활용하는 교차 모달 재파라미터화라는 제안된 방법을 통해 보조 모델의 트랜스포머 블록을 활용합니다. 이미지, 포인트 클라우드, 비디오 및 오디오 인식 작업에서 다른 모달의 관련 없는 데이터로 유의미하고 일관된 성능 향상을 관찰할 수 있었습니다. 코드와 모델은 이 https URL에서 확인할 수 있습니다. [abs|pdf]

[9/80] Adaptive Mobile Manipulation for Articulated Objects In the Open World

Keywords: online_learning_object, unstructured_environments_robot, mobile_manipulation_hardware
Abstract: 가정과 같은 개방된 비정형 환경에 로봇을 배치하는 것은 오랜 연구 과제였습니다. 그러나 로봇은 폐쇄된 실험실 환경에서만 연구되는 경우가 많고, 이전의 모바일 조작 작업은 픽-무브-플레이스에 국한되어 있으며, 이는 이 분야의 빙산의 일각에 불과합니다. 이 백서에서는 개방형 비정형 환경에서 실제 문, 캐비닛, 서랍, 냉장고와 같은 현실적인 다관절 물체 조작을 처리하기 위한 풀스택 접근 방식인 오픈 월드 모바일 조작 시스템을 소개합니다. 이 로봇은 적응형 학습 프레임워크를 활용하여 처음에는 행동 복제를 통해 작은 데이터 세트에서 학습한 다음, 훈련 분포에서 벗어난 새로운 물체에 대한 온라인 연습을 통해 학습합니다. 또한 약 2만 달러의 비용으로 비정형 환경에서 안전하고 자율적으로 온라인 적응을 할 수 있는 저비용 모바일 조작 하드웨어 플랫폼을 개발합니다. 실험에서는 CMU 캠퍼스 내 4개 건물에 있는 20개의 관절형 물체를 활용합니다. 각 물체에 대해 한 시간 미만의 온라인 학습을 통해 이 시스템은 BC 사전 교육 시 50%였던 성공률을 온라인 적응을 통해 95%로 높일 수 있었습니다. 이 https URL의 비디오 결과 [abs|pdf]

[10/80] TURNA: A Turkish Encoder-Decoder Language Model for Enhanced Understanding and Generation

Keywords: monolingual_turkish_models, language_turkish_capable, language_model_turna
Abstract: 최근 자연어 처리의 발전은 주로 자원이 풍부한 영어 중심의 모델을 선호하여 자원이 부족한 언어와 상당한 격차가 발생하고 있습니다. 이번 연구에서는 저자원 언어인 터키어를 위해 개발되어 자연어 이해와 생성 작업을 모두 수행할 수 있는 언어 모델 TURNA를 소개합니다. TURNA는 통합 프레임워크 UL2에 기반한 인코더-디코더 아키텍처와 이를 위해 특별히 큐레이션한 다양한 말뭉치로 사전 학습되었습니다. 터키어에 대한 세 가지 생성 작업과 다섯 가지 이해 작업으로 TURNA를 평가했습니다. 그 결과 TURNA는 이해 및 생성 작업 모두에서 여러 다국어 모델보다 우수한 성능을 보였으며, 이해 작업에서는 단일 언어 터키어 모델과 경쟁하는 것으로 나타났습니다. TURNA는 다음 https URL에서 사용할 수 있습니다. [abs|pdf]

[11/80] Efficient Optimisation of Physical Reservoir Computers using only a Delayed Input

Keywords: reservoir_computing_robust, reservoir_computing_using, reservoir_computing
Abstract: 이 글에서는 광전자 설정을 사용하여 최근에 제안된 저수지 컴퓨팅 최적화 기법의 실험적 검증을 소개합니다. 저수지 컴퓨팅은 신호 처리 애플리케이션을 위한 강력한 프레임워크이며, 효율적인 최적화 접근법의 개발은 여전히 핵심 과제로 남아 있습니다. 우리가 다루는 기술은 입력 신호의 지연된 버전만을 활용하여 저장소의 최적 작동 영역을 식별함으로써 전통적으로 시간이 많이 소요되는 하이퍼파라미터 튜닝 작업을 간소화합니다. 다양한 벤치마크 작업과 저장소 운영 조건에서 이 접근법의 효과를 검증합니다. [abs|pdf]

[12/80] Genie: Achieving Human Parity in Content-Grounded Datasets Generation

Keywords: summarization_models_par, cnn_dailymail_summarization, summarization_models
Abstract: 콘텐츠 기반 생성 작업을 위한 고품질 데이터의 부족은 이러한 작업을 발전시키는 데 있어 가장 큰 걸림돌로 지적되어 왔습니다. 이러한 격차를 해소하기 위해 고품질 콘텐츠 기반 데이터를 자동으로 생성하는 새로운 방법인 Genie를 제안합니다. 이 방법은 (a) 콘텐츠 준비, (b) 생성: 콘텐츠에서 작업별 예제(예: 질문-답변 쌍 또는 요약)를 생성하는 세 단계로 구성됩니다. (c) 생성된 데이터의 품질과 충실도를 보장하기 위한 필터링 메커니즘. 저희는 장문 질의응답(LFQA), 요약, 정보 추출을 위한 세 가지 대규모 합성 데이터를 생성하여 이 방법론을 선보입니다. 사람에 의한 평가 결과, 생성된 데이터는 자연스럽고 품질이 높은 것으로 나타났습니다. 또한, 우리 데이터로 훈련된 모델과 사람이 작성한 데이터로 훈련된 모델(LFQA의 경우 ELI5 및 ASQA, 요약의 경우 CNN-DailyMail)을 비교했습니다. 그 결과, 우리 모델이 사람이 생성한 데이터로 훈련한 모델과 동등하거나 더 나은 성능을 보였으며, 충실도 면에서도 일관되게 더 나은 성능을 보였습니다. 마지막으로, 의료 영역에서 LFQA 데이터를 생성하는 데 우리의 방법을 적용하고 이를 통해 훈련된 모델을 다른 영역에서 훈련된 모델과 비교했습니다. [abs|pdf]

[13/80] The Typing Cure: Experiences with Large Language Model Chatbots for Mental Health Support

Keywords: chatbots_mental_health, seeking_support_chatbots, support_chatbots
Abstract: 심각한 정신적 고통을 겪는 사람들이 정신 건강 지원 도구로 대규모 언어 모델(LLM) 챗봇을 점점 더 많이 사용하고 있습니다. 소셜 미디어에서의 토론을 통해 챗봇과의 대화가 일부 사람들에게는 생명을 구하는 계기가 되었다는 이야기가 전해지기도 하지만, 범용 LLM 챗봇도 책임감 있게 설계되지 않으면 사용자의 복지를 위협할 수 있는 상당한 위험이 있다는 증거가 있습니다. 이 연구에서는 정신건강 지원을 위해 LLM 챗봇을 사용한 사람들의 생생한 경험을 조사합니다. 전 세계적으로 다양한 배경을 가진 21명의 인터뷰를 바탕으로 사용자가 챗봇을 위한 고유한 지원 역할을 만들고, 일상적인 치료의 공백을 메우고, 챗봇의 지원을 구할 때 관련된 문화적 한계를 극복하는 방법을 분석합니다. 효과적인 지원에 관한 심리치료 문헌을 분석의 근거로 삼고, 정신건강 맥락에서 AI를 치료적 가치와 일치시키는 치료적 정렬이라는 개념을 도입했습니다. 이 연구는 디자이너가 정신건강 치료에서 LLM 챗봇 및 기타 AI 정신건강 지원 도구를 윤리적이고 효과적으로 사용하는 방법에 대한 권장 사항을 제공합니다. [abs|pdf]

[14/80] Progressive Multi-task Anti-Noise Learning and Distilling Frameworks for Fine-grained Vehicle Recognition

Keywords: grained_vehicle_recognition, vehicle_recognition, vehicle_images_dataset
Abstract: 세분화된 차량 인식(FGVR)은 지능형 교통 시스템에 필수적인 기반 기술이지만, 내재된 클래스 내 변화로 인해 매우 어렵습니다. 대부분의 기존 FGVR 연구는 촬영 각도, 위치 등에 따른 클래스 내 변동에만 초점을 맞추고 있으며, 이미지 노이즈로 인한 클래스 내 변동은 거의 주목받지 못했습니다. 본 논문에서는 이미지 노이즈로 인한 FGVR의 클래스 내 편차 문제를 해결하기 위해 프로그레시브 멀티태스크 안티 노이즈 학습(PMAL) 프레임워크와 프로그레시브 멀티태스크 증류(PMD) 프레임워크를 제안합니다. PMAL 프레임워크는 이미지 노이즈 제거를 이미지 인식의 추가 작업으로 처리하고 모델이 노이즈 불변성을 학습하도록 점진적으로 강제함으로써 높은 인식 정확도를 달성합니다. PMD 프레임워크는 PMAL로 훈련된 모델의 지식을 원래의 백본 네트워크로 전송하여 PMAL로 훈련된 모델과 거의 동일한 인식 정확도를 가지면서도 원래의 백본 네트워크에 대한 추가 오버헤드 없이 모델을 생성합니다. 이 두 프레임워크를 결합하면 널리 사용되는 두 가지 표준 FGVR 데이터 세트, 즉 스탠포드 자동차(Stanford Cars) 및 컴카스(CompCars)와 세 가지 추가 감시 이미지 기반 차량 유형 분류 데이터 세트, 즉 베이징과기대(BIT)-차량, 차량 유형 이미지 데이터 2(VTID2) 및 차량 이미지 데이터 세트(VIDMMR)에 대한 인식 정확도에서 기존의 최신 방법을 훨씬 뛰어넘는 모델을 원래 백본 네트워크에 대한 추가 오버헤드 없이도 얻을 수 있습니다. 소스 코드는 다음 https URL에서 확인할 수 있습니다 [abs|pdf]

[15/80] Topologies of Reasoning: Demystifying Chains, Trees, and Graphs of Thoughts

Keywords: reasoning_guided_structure, reasoning_schemes_focus, reasoning_guided
Abstract: 자연어 처리(NLP) 분야는 최근 몇 년 동안 혁신적인 프롬프트 기술을 통해 대규모 언어 모델(LLM)의 성능을 개선하는 데 중점을 두면서 상당한 발전을 이루었습니다. 그 중에서도 구조와 결합된 프롬프트 엔지니어링이 유망한 패러다임으로 떠오르고 있으며, 전체 LLM 추론이 그래프와 같은 구조에 의해 유도되는 연쇄 사고, 생각의 나무 또는 생각의 그래프와 같은 설계가 그 대표적인 예입니다. 수많은 예시를 통해 알 수 있듯이 이 패러다임은 논리적 또는 수학적 추론에서 기획이나 창의적 글쓰기에 이르기까지 다양한 작업을 해결하는 LLM의 능력을 크게 향상시킵니다. 이 성장하는 분야에 대한 이해를 돕고 향후 발전을 위한 기반을 마련하기 위해 효과적이고 효율적인 LLM 추론 체계에 대한 일반적인 청사진을 고안합니다. 이를 위해 신속한 실행 파이프라인에 대한 심층 분석을 수행하여 다양한 개념을 명확하고 명확하게 정의합니다. 그런 다음 구조 강화 LLM 추론 체계의 첫 번째 분류 체계를 구축합니다. 우리는 활용 구조의 기본 클래스를 식별하는 데 초점을 맞추고, 이러한 구조의 표현, 이러한 구조로 실행되는 알고리즘 등을 분석합니다. 우리는 이러한 구조를 추론 토폴로지라고 부르는데, 그 이유는 LLM 컨텍스트에 포함되어 있기 때문에 그 표현이 어느 정도 공간적이기 때문입니다. 이 연구에서는 제안된 분류법을 사용하여 기존의 프롬프트 체계를 비교하고, 특정 설계 선택이 성능과 비용에서 어떻게 다른 패턴으로 이어지는지 논의합니다. 또한 이론적 토대, 프롬프트와 지식 기반과 같은 LLM 생태계의 다른 부분 간의 관계, 관련 연구 과제에 대해서도 간략히 설명합니다. 우리의 연구는 미래의 프롬프트 엔지니어링 기술을 발전시키는 데 도움이 될 것입니다. [abs|pdf]

[16/80] AST-2: Single and bi-layered 2-D acoustic soft tactile skin

Keywords: acoustic_soft_tactile, tactile_feature_estimation, surface_improving_tactile
Abstract: 이 백서에서는 2D 촉각 특징 추정의 정확도를 크게 향상시키는 것을 주요 목표로 하는 혁신적이고 비용 효율적인 음향 소프트 촉각(AST) 스킨 설계를 소개합니다. 기존의 과제는 비용 효율적인 솔루션을 사용하여 특히 접촉 지오메트리 특성과 관련된 정확한 촉각 특징 추정을 달성하는 데 있습니다. 유니티는 감지 표면 아래 2개 층의 전용 음향 채널을 통해 음향 에너지를 활용하고 진폭 변조를 분석함으로써 감각 표면의 상호작용을 효과적으로 디코딩하여 촉각 특징 추정을 개선할 수 있다는 가설을 세웠습니다. 유니티의 접근 방식은 음향 신호 송수신을 담당하는 하드웨어 구성요소를 명확하게 분리하여 모듈식 고도로 맞춤화된 스킨 디자인을 구현합니다. 실제 테스트 결과, 접촉 정상 힘(MAE <0.8 N), 2D 접촉 위치 추정(MAE <0.7 mm), 접촉 표면 직경(MAE <0.3 mm) 추정에서 놀라운 정밀도를 달성하여 이 새로운 설계의 효과를 입증했습니다. 결론적으로, 혁신적인 디자인과 모듈식 아키텍처를 갖춘 AST 스킨은 촉각 특징 추정이라는 과제를 성공적으로 해결했습니다. 제시된 결과는 다양한 촉각 특징을 정밀하게 추정할 수 있는 능력을 보여주며, 로봇 애플리케이션을 위한 실용적이고 비용 효율적인 솔루션임을 보여줍니다. [abs|pdf]

[17/80] POUR-Net: A Population-Prior-Aided Over-Under-Representation Network for Low-Count PET Attenuation Map Generation

Keywords: exposure_pet_imaging, pet_imaging, features_assisting_deep
Abstract: 저선량 PET는 PET 촬영 시 방사선 피폭을 최소화할 수 있는 유용한 수단입니다. 그러나 PET 감쇠 보정을 위한 감쇠 지도(u-map)를 생성하기 위해 추가 CT 스캔을 사용하는 일반적인 관행은 방사선량을 크게 증가시킵니다. 이러한 문제를 해결하고 저선량 PET 검사에서 방사선 피폭을 더욱 완화하기 위해 저선량 PET에서 고품질 감쇠 지도 생성을 목표로 하는 혁신적인 인구 사전 지원 과소 대표성 네트워크인 POUR-Net을 제안합니다. 첫째, POUR-Net은 전체 해상도 수준에서 딥 생성을 지원하기 위해 저해상도의 추상화된 특징과 세밀한 특징을 모두 아우르는 효율적인 특징 추출을 용이하게 하는 과소표현 네트워크(OUR-Net)를 통합합니다. 둘째, 포괄적인 CT에서 파생된 u-맵 데이터 세트를 활용하는 인구 사전 생성 머신(PPGM)인 OUR-Net을 보완하여 OUR-Net 생성에 도움이 되는 추가 사전 정보를 제공합니다. 캐스케이드 프레임워크 내에서 OUR-Net과 PPGM을 통합하면 $\mu$ 지도 생성의 반복적인 개선이 가능하여 고품질의 $\mu$ 지도를 생성할 수 있습니다. 실험 결과는 POUR-Net의 효율성을 강조하며, 이전 기준 방법의 성능을 능가하는 정확한 CT 프리 저카운트 PET 감쇠 보정을 위한 유망한 솔루션임을 보여줍니다. [abs|pdf]

[18/80] RomanSetu: Efficiently unlocking multilingual capabilities of Large Language Models models via Romanization

Keywords: suggest_potential_romanization, potential_romanization, romanized_native_texts
Abstract: 이 연구는 대규모 언어 모델(LLM)을 비영어권 언어, 특히 비라틴어 스크립트를 사용하는 언어로 확장하는 문제를 다룹니다. 우리는 로마자 표기의 빈번한 비공식적 사용과 영어와의 공유 토큰이 언어 간 정렬을 향상시킨다는 가설을 세우고, 로마자 표기의 텍스트 형식을 LLM의 인터페이스로 활용하는 혁신적인 접근 방식을 제안합니다. 힌디어를 중심으로 힌디어-영어 번역 및 감정 분석 작업을 통해 로마자 표기 텍스트가 네이티브 텍스트에 비해 비옥도가 낮아 추론 효율이 크게 향상될 뿐만 아니라 제한된 사전 학습으로도 경쟁력 있는 성능을 달성할 수 있음을 입증했습니다. 또한 로마자 표기 텍스트와 원어민 텍스트를 결합한 새로운 다중 스크립트 프롬프트 접근 방식은 작업 성능을 더욱 향상시킬 수 있는 가능성을 보여주었습니다. 이러한 연구 결과는 LLM 애플리케이션의 언어 격차를 해소하는 데 있어 로마자 표기법의 잠재력을 시사하며, 향후 이 접근 방식을 더 많은 언어와 작업으로 확장하는 것을 목표로 하고 있습니다. [abs|pdf]

[19/80] Transformers and Cortical Waves: Encoders for Pulling In Context Across Time

Keywords: attention_crucial_computational, attention_applied_encoding, waves_neural
Abstract: ChatGPT 및 기타 대규모 언어 모델(LLM)과 같은 트랜스포머 네트워크의 기능은 전 세계의 주목을 받고 있습니다. 이러한 성능의 근간이 되는 중요한 계산 메커니즘은 전체 입력 시퀀스(예: 문장의 모든 단어)를 긴 '인코딩 벡터'로 변환하여 트랜스포머가 자연스러운 시퀀스에서 장거리 시간적 종속성을 학습할 수 있도록 하는 데 달려 있습니다. 특히, 이 인코딩 벡터에 적용된 '자기 주의'는 입력 시퀀스에서 단어 쌍 간의 연관성을 계산하여 트랜스포머의 시간적 맥락을 향상시킵니다. 우리는 단일 피질 영역 또는 전뇌 규모의 여러 영역을 가로질러 이동하는 신경 활동의 파동도 유사한 인코딩 원리를 구현할 수 있다고 제안합니다. 피질파는 최근의 입력 이력을 매 순간마다 하나의 공간 패턴으로 캡슐화함으로써 트랜스포머에 사용되는 것과 동일한 계산 원리로 감각 입력 시퀀스에서 시간적 맥락을 추출할 수 있습니다. [abs|pdf]

[20/80] Sketch2NeRF: Multi-view Sketch-guided Text-to-3D Generation

Keywords: grained_sketch_control, text_3d_generation, sketch_control_3d
Abstract: 최근에는 텍스트 설명을 사용하여 충실도가 높은 3D 콘텐츠를 생성하는 텍스트-3D 접근 방식이 등장했습니다. 하지만 생성된 오브젝트는 확률적이며 세밀한 제어 기능이 부족합니다. 스케치는 이러한 세밀한 제어를 도입할 수 있는 저렴한 접근 방식을 제공합니다. 하지만 스케치의 추상성과 모호성 때문에 스케치에서 유연한 제어를 구현하기는 어렵습니다. 이 논문에서는 3D 생성에 스케치 제어 기능을 추가하기 위한 멀티뷰 스케치 가이드 텍스트-3D 생성 프레임워크(즉, Sketch2NeRF)를 제시합니다. 특히 이 방법은 사전 학습된 2D 확산 모델(예: Stable Diffusion 및 ControlNet)을 활용하여 신경 방사 필드(NeRF)로 표현되는 3D 장면의 최적화를 감독합니다. 우리는 NeRF를 효과적으로 최적화하기 위해 새로운 동기화 생성 및 재구성 방법을 제안합니다. 실험에서는 제안한 방법을 평가하기 위해 두 가지 종류의 멀티뷰 스케치 데이터 세트를 수집했습니다. 우리는 우리의 방법이 텍스트 프롬프트에 충실하면서도 세밀한 스케치 제어를 통해 3D 일관된 콘텐츠를 합성할 수 있음을 보여줍니다. 광범위한 결과를 통해 제안한 방법이 스케치 유사도와 텍스트 정렬 측면에서 최첨단 성능을 달성한다는 것을 알 수 있습니다. [abs|pdf]

[21/80] AR-GAN: Generative Adversarial Network-Based Defense Method Against Adversarial Attacks on the Traffic Sign Classification System of Autonomous Vehicles

Keywords: various_adversarial_attack, adversarial_attack, adversarial_defense
Abstract: 이 연구에서는 자율주행차(AV)의 교통신호 분류를 위한 생성적 적대 신경망(GAN) 기반 방어 방법을 개발했는데, 이를 공격 탄력적 GAN(AR-GAN)이라고 합니다. AR-GAN의 특징은 (i) 적대적 공격 모델과 샘플에 대한 지식이 전혀 없다고 가정하고, (ii) 다양한 적대적 공격 유형에서 일관되게 높은 교통 표지판 분류 성능을 제공한다는 점입니다. AR-GAN 분류 시스템은 이미지를 재구성하여 노이즈를 제거하는 제너레이터와 재구성된 이미지를 분류하는 분류기로 구성됩니다. 저자들은 무공격 상태와 고속 그라디언트 부호 방식(FGSM), 딥풀, 칼리니와 와그너(C&W), 투영 그라디언트 하강(PGD) 등 다양한 적대적 공격에서 AR-GAN을 테스트했습니다. 저자들은 이러한 공격의 두 가지 형태, 즉 (i) 블랙박스 공격(공격자가 분류기에 대한 사전 지식이 없다고 가정)과 (ii) 화이트박스 공격(공격자가 분류기에 대한 완전한 지식을 가지고 있다고 가정)을 고려했습니다. AR-GAN의 분류 성능을 몇 가지 벤치마크 적대적 방어 방법과 비교했습니다. 그 결과 AR-GAN과 벤치마크 방어 방법 모두 블랙박스 공격에 대해 복원력이 있으며 교란되지 않은 이미지와 유사한 분류 성능을 달성할 수 있는 것으로 나타났습니다. 그러나 이 연구에서 고려한 모든 화이트박스 공격에 대해서는 AR-GAN 방식이 벤치마크 방어 방식보다 우수한 성능을 보였습니다. 또한 AR-GAN은 다양한 화이트박스 공격의 섭동 크기에서도 높은 분류 성능을 유지할 수 있었던 반면, 다른 방어 방법의 성능은 섭동 크기가 증가하면 급격하게 떨어졌습니다. [abs|pdf]

[22/80] Assessing the Portability of Parameter Matrices Trained by Parameter-Efficient Finetuning Methods

Keywords: knowledge_transfer_learning, learnt_knowledge_transfer, equivalent_modules_trained
Abstract: 점점 더 큰 언어 모델을 학습하는 데 드는 비용이 증가함에 따라 이전에 학습한 지식을 재사용하는 것에 대한 관심도 커지고 있습니다. 전이 학습 방법은 작업과 무관한 지식을 재사용하는 것이 이후의 작업별 학습에 어떻게 도움이 되는지 보여주었습니다. 이 논문에서는 그 반대의 경우, 즉 작업별 지식을 인코딩하는 전체 기능 모듈을 한 모델에서 다른 모델로 포팅하는 방법에 대해 살펴봅니다. 감정 분석을 예시 과제로 삼아 매개변수 효율적 미세조정(PEFT) 기법으로 훈련된 모듈의 이식성을 테스트하기 위해 1,440회의 훈련/테스트 실행으로 구성된 연구를 설계했습니다. 다양한 PEFT 기법과 사전 학습된 호스트 모델 등 다양한 측면에서 이식성을 테스트합니다. 포팅된 모듈의 성능을 포팅된 모듈과 동일한 분포에서 샘플링된 매개변수로 (i) 처음부터 훈련된 동등한 모듈의 성능과 (ii) 포팅된 모듈과 동일한 분포에서 샘플링된 매개변수로 훈련된 동등한 모듈의 성능과 비교합니다. 포팅된 모듈이 테스트한 두 가지 대안보다 훨씬 뛰어난 성능을 보였지만, 네 가지 PEFT 기법 간에는 흥미로운 성능 차이가 있음을 발견했습니다. PEFT 기법에 의해 생성된 구조적으로 모듈화된 매개변수 집합 형태의 작업별 지식은 이식성이 높지만, 그 성공 정도는 PEFT의 유형과 사전 학습된 모델의 원본과 수신 간의 차이에 따라 달라진다는 결론을 내렸습니다. [abs|pdf]

[23/80] Commonsense-augmented Memory Construction and Management in Long-term Conversations via Context-aware Persona Refinement

Keywords: better_response_generation, uninformative_persona_sentences, response_generation_human
Abstract: 화자의 페르소나를 기억하고 활용하는 것은 장기 대화에서 응답을 생성하기 위한 일반적인 관행입니다. 그러나 사람이 작성한 데이터 세트는 종종 응답 품질을 저해하는 비정보적인 페르소나 문장을 제공합니다. 이 논문에서는 상식 기반의 페르소나 확장을 활용하여 장기 대화에서 이러한 문제를 해결하는 새로운 프레임워크를 제시합니다. 기존 연구는 다른 사람과 모순되는 페르소나를 생성하지 않는 데 중점을 두었다면, 본 논문에서는 모순되는 페르소나를 설계된 전략을 통해 문맥적 배경에 따라 개선함으로써 풍부한 화자 정보를 포함하는 문장으로 변환하는 데 중점을 둡니다. 다중 세션 환경에서 페르소나 확장의 선구자인 저희 프레임워크는 인간과 유사한 페르소나 개선을 통해 더 나은 응답을 생성할 수 있도록 지원합니다. 자세한 내용은 https://caffeine-15bbf.web.app/ 에서 확인할 수 있습니다. [abs|pdf]

[24/80] Exploiting Liver CT scans in Colorectal Carcinoma genomics mutation classification

Keywords: tools_analyze_tumor, analyze_tumor_image, tumor_image
Abstract: 간은 대장-직장암(CRC) 환자에서 원격 전이에 가장 많이 관여하는 장기로, 최적의 개별 치료를 올바르게 설계하기 위해서는 병변의 돌연변이 상태를 파악하는 것이 필요합니다. 지금까지는 컴퓨터 단층촬영(CT) 스캔으로 얻은 종양 이미지를 분석하는 새로운 인공지능 도구를 사용하여 종양 전체를 분석할 수 있는 비침습적이고 실시간적인 방법을 개발하기 위해 노력해 왔습니다. 현재 의료 워크플로우, 즉 생검 분석 기반의 문제를 해결하기 위해 우리는 환자의 의료 영상에서 이러한 분류 접근법을 딥러닝 기반으로 탐색하는 최초의 방법을 제안합니다. 우리는 i) 사용 가능한 CT 스캔의 저용량 데이터 세트를 관리하기 위한 견고한 파이프라인과 ii) 선제적인 환자 추적 관찰을 위한 유전체 돌연변이 진단 지원을 위한 기준 연구를 제안합니다. 우리의 방법은 0.73의 F1 점수로 CT 이미지에서 CRC RAS 돌연변이군을 식별할 수 있습니다. [abs|pdf]

[25/80] TDFNet: An Efficient Audio-Visual Speech Separation Model with Top-down Fusion

Keywords: speech_separation_network, speech_separation_audio, audio_speech_separation
Abstract: 시청각 음성 분리는 음성 인식, 일기, 장면 분석, 보조 기술 등 다양한 분야에 적용될 수 있는 잠재력으로 인해 최근 몇 년 동안 큰 주목을 받고 있습니다. 지연 시간이 짧은 애플리케이션에서는 가벼운 시청각 음성 분리 네트워크를 설계하는 것이 중요하지만, 기존 방식은 더 나은 분리 성능을 달성하기 위해 더 높은 계산 비용과 더 많은 매개 변수를 필요로 하는 경우가 많습니다. 이 논문에서는 오디오 전용 음성 분리 방법인 TDANet의 아키텍처를 기반으로 하는 시청각 음성 분리를 위한 최신(SOTA) 모델인 하향식 융합망(TDFNet)이라는 시청각 음성 분리 모델을 제시합니다. TDANet은 TDFNet 내의 청각 및 시각 네트워크의 아키텍처 기반 역할을 하며, 더 적은 수의 파라미터로 효율적인 모델을 제공합니다. LRS2-2Mix 데이터 세트에서 TDFNet은 이전 SOTA 방식인 CTCNet에 비해 모든 성능 지표에서 최대 10%의 성능 향상을 달성했습니다. 놀랍게도 이러한 결과는 더 적은 수의 파라미터와 CTCNet의 28%에 불과한 곱셈-누적 연산(MAC)을 사용하여 달성할 수 있습니다. 본질적으로 이 방법은 시청각 영역 내 음성 분리 문제에 대한 매우 효과적이고 효율적인 솔루션을 제시하여 시각 정보를 최적으로 활용하는 데 큰 진전을 이루었습니다. [abs|pdf]

[26/80] Copilot Refinement: Addressing Code Smells in Copilot-Generated Python Code

Keywords: code_smells_copilot, python_code_smells, code_smells_employing
Abstract: 가장 널리 사용되는 동적 언어 중 하나인 Python은 코드 냄새가 나면 가독성과 유지보수성이 떨어집니다. 최근 대규모 언어 모델의 발전으로 인해 코드 생성 및 리팩터링을 위한 AI 지원 도구에 대한 관심이 높아지고 있습니다. GitHub Copilot은 널리 사용되고 있는 도구 중 하나입니다. 2023년 9월에 출시된 Copilot Chat은 자연어 기반 코딩을 용이하게 하는 대화형 도구로 기능합니다. 하지만 코파일럿이 생성한 파이썬 코드에서 코드 냄새를 파악하고 코파일럿이 생성한 코드 냄새를 수정하는 기능에는 제한적인 관심을 기울여 왔습니다. 이를 위해 Copilot에서 생성된 Python 코드에서 102개의 코드 냄새로 구성된 데이터 세트를 구축했습니다. 우리의 목표는 먼저 Copilot이 생성한 Python 코드에서 코드 냄새의 발생을 탐색한 다음, 다양한 프롬프트를 사용하여 이러한 코드 냄새를 수정하는 데 Copilot이 얼마나 효과적인지 평가하는 것입니다. 그 결과 Copilot으로 생성된 Python 코드에서 10가지 유형 중 8가지 유형의 코드 냄새를 감지할 수 있었으며, 그 중 다중 중첩 컨테이너가 가장 흔한 것으로 나타났습니다. 이러한 코드 냄새에 대해 Copilot Chat은 87.1%의 가장 높은 수정률을 달성하여 Copilot 자체에서 생성된 Python 코드 냄새를 수정할 수 있는 가능성을 보여주었습니다. 또한, 더 자세한 프롬프트를 제공하면 이러한 냄새를 수정하는 데 있어 Copilot Chat의 효율성을 높일 수 있습니다. 그러나 이러한 냄새를 해결하기 위해 Copilot Chat을 사용하면 새로운 코드 냄새가 발생할 수 있습니다. [abs|pdf]

[27/80] The Boundaries of Tractability in Hierarchical Task Network Planning

Keywords: task_network_planning, tractability_problems_achieved, complexity_theoretic_boundaries
Abstract: 우리는 계층적 작업 네트워크 계획의 맥락에서 주어진 계획의 유효성 검사, 실행 가능한 계획의 존재 여부, 주어진 상태에 어떤 계획으로 도달할 수 있는지 여부라는 세 가지 고전적인 문제에 대한 복잡성 이론적 트랙터빌리티의 경계를 연구합니다. 우리는 세 가지 문제 모두 일정한 부분 차수 폭의 원시 작업 네트워크(및 그 일반화)에서 다항식 시간 내에 해결할 수 있는 반면, 후자의 두 가지 문제는 상태 공간에 대한 증명 가능한 제한이 있을 때만 가능하다는 것을 보여 줍니다. 다음으로, 알고리즘 메타 정리와 그에 상응하는 하한을 구하여 일반 다항식 시간 해결 가능성 결과를 원시 작업 네트워크에서 일반 작업 네트워크로 끌어올릴 수 있는 엄격한 조건을 식별합니다. 마지막으로, 고려된 세 가지 문제의 매개변수화된 복잡성을 분석하여 조사를 강화하고, (1) 부분 차수 폭을 네트워크의 정점 커버 수로 매개변수로 대체하면 세 가지 문제 모두에 대한 고정 매개변수 트랙성을 얻을 수 있으며, (2) 네트워크의 다른 고전적 그래프 이론 매개변수(트리 폭, 트리 깊이 및 앞서 언급한 부분 차수 폭 포함)는 세 문제 중 하나에 대해 고정 매개변수 트랙성을 얻지 못한다는 것을 보여줍니다. [abs|pdf]

[28/80] Predicting Hypoxia in Brain Tumors from Multiparametric MRI

Keywords: prediction_hypoxia_mri, hypoxia_prediction_brain, prediction_brain_tumors
Abstract: 이 연구 논문은 다중 파라메트릭 자기공명영상(MRI)을 사용하여 뇌종양에서 저산소증을 예측하는 새로운 접근법을 제시합니다. 저산소증은 낮은 산소 수치를 특징으로 하는 상태로, 예후가 좋지 않은 악성 뇌종양의 일반적인 특징입니다. 플루오로미소니다졸 양전자방출단층촬영(FMISO PET)은 생체 내 저산소증을 감지하는 잘 확립된 방법이지만 비용이 비싸고 널리 사용되지 않습니다. 본 연구에서는 보다 접근성이 높고 비용 효율적인 영상 촬영 방식인 MRI를 사용하여 FMISO PET 신호를 예측할 것을 제안합니다. 우리는 뇌종양 환자의 MRI와 FMISO PET 이미지가 쌍을 이룬 리소스인 ACRIN 6684 데이터셋에서 훈련된 딥러닝 모델(DL)을 조사합니다. 훈련된 모델은 MRI 특징과 해당 FMISO PET 신호 간의 복잡한 관계를 효과적으로 학습하여 MRI 스캔만으로 저산소증을 예측할 수 있습니다. 그 결과, 전체 PSNR 점수가 29.6 이상, SSIM 점수가 0.94 이상으로 예측된 신호와 실제 FMISO PET 신호 간에 강한 상관관계가 있는 것으로 나타나 MRI가 뇌종양의 저산소증 예측을 위한 유망한 옵션임을 확인했습니다. 이 접근 방식은 임상 환경에서 저산소증 검출의 접근성을 크게 개선하여 보다 시기적절하고 표적화된 치료를 가능하게 할 수 있습니다. [abs|pdf]

[29/80] BayesPrompt: Prompting Large-Scale Pre-Trained Language Models on Few-shot Inference via Debiased Domain Abstraction

Keywords: trained_language_models, bayesprompt_learn_prompts, abridged_knowledge_target
Abstract: 프롬프트 튜닝은 대규모 사전 학습 언어 모델(PLM)을 기반으로 하는 새롭고 효과적인 미세 조정 패러다임으로, 다운스트림 작업과 사전 학습 목표 간의 간극을 줄이는 것을 목표로 합니다. 프롬프트 튜닝은 다양한 작업에서 지속적인 발전을 가져왔지만, 프롬프트 튜닝 방법은 특정 소수 패턴에 일반화하지 못한다는 점에서 여전히 지속적인 결함이 남아 있습니다. 분포 분석의 관점에서, 우리는 이러한 현상의 이면에 있는 본질적인 문제가 PLM에 포함된 지나치게 많은 개념적 지식과 대상 다운스트림 도메인에 대한 요약된 지식이며, 이 두 가지가 결합하여 PLM이 보편적인 지식 임베딩 공간에서 대상 도메인에 해당하는 지식 분포를 잘못 찾아내는 결과를 초래한다는 사실을 밝힙니다. 이를 위해 우리는 직관적으로 다운스트림 작업의 요약되지 않은 목표 도메인을 디베이싱 방식으로 근사화한 다음, 이러한 도메인을 추상화하여 판별 가능한 프롬프트를 생성함으로써 PLM에 모호하지 않은 지침을 제공하는 방법을 모색합니다. 이러한 직관에 따라 우리는 도메인 관련 지식의 간섭으로부터 도메인 판별 정보를 포함하는 프롬프트를 학습하기 위해 간단하면서도 효과적인 접근 방식, 즉 베이즈프롬프트를 제안합니다. 베이즈프롬프트는 기본적으로 알려진 분포를 활용하여 대상 도메인의 비뚤어진 사실 분포를 근사화하고, 근사화된 분포에서 특정 대표 특징을 균일하게 샘플링하여 PLM을 위한 최종 프롬프트를 생성합니다. 또한 도메인 적응과 관련된 이론적 인사이트를 제공합니다. 경험적으로 이 방법은 벤치마크에서 최첨단 성능을 달성합니다. [abs|pdf]

[30/80] Alleviating Structural Distribution Shift in Graph Anomaly Detection

Keywords: graph_anomaly_detection, graph_anomaly, anomaly_features
Abstract: 그래프 이상 탐지(GAD)는 이상 노드와 정상 노드 간의 구조적 분포가 다르기 때문에, 즉 이상 노드가 소수이기 때문에 정상 노드에 비해 이질성이 높고 동질성이 낮기 때문에 까다로운 이진 분류 문제입니다. 또한, 다양한 시간 요인과 인간 전문가의 주석 선호도로 인해 훈련 및 테스트 데이터에서 이질성과 동질성이 변할 수 있는데, 이를 본 논문에서는 구조적 분포 이동(SDS)이라고 부릅니다. 주류 방법은 그래프 신경망(GNN)을 기반으로 구축되어 동질적인 이웃을 집계함으로써 정상 분류에는 유리하지만, 이상에 대한 SDS 문제를 무시하고 일반화가 잘 되지 않는 문제가 있습니다.
이 연구는 특징적인 관점에서 이 문제를 해결합니다. 우리는 이상 노드와 정상 노드 간에 SDS의 정도가 다르다는 것을 관찰했습니다. 따라서 이 문제를 해결하기 위해서는 이상 노드에 대한 높은 이질성을 억제하는 동시에 정상 노드에 대한 동질성 학습에 도움이 되는 방법을 찾는 것이 핵심입니다. 우리는 이질적인 이웃 노드의 영향을 완화하기 위해 제한하는 변칙 노드를 골라내고 이를 불변으로 만듭니다. 우리가 제안한 프레임워크를 그래프 분해 네트워크(GDN)라고 부릅니다. 두 개의 벤치마크 데이터 세트에 대해 광범위한 실험을 수행한 결과, 제안된 프레임워크는 특히 훈련 환경과 테스트 환경 간에 이상값의 구조적 분포가 크게 다른 SDS 환경에서 GAD의 성능을 크게 향상시켰습니다. 코드는 이 https URL에서 오픈 소스입니다. [abs|pdf]

[31/80] True Knowledge Comes from Practice: Aligning LLMs with Embodied Environments via Reinforcement Learning

Keywords: learning_rl_agents, reinforcement_learning_rl, agents_learn_policies
Abstract: 대규모 언어 모델(LLM)은 수많은 작업에서 인상적인 성능을 발휘하지만, LLM의 지식과 환경이 일치하지 않아 간단한 의사 결정 작업을 해결하는 데 실패하는 경우가 많습니다. 반대로 강화 학습(RL) 에이전트는 처음부터 정책을 학습하기 때문에 항상 환경과 일치하지만 효율적인 탐색을 위해 사전 지식을 통합하기는 어렵습니다. 이러한 간극을 좁히기 위해 저희는 준비된 데이터 세트나 환경에 대한 사전 지식 없이도 RL을 통해 구현된 환경과 효율적으로 상호 작용하고 조율할 수 있는 의사 결정 에이전트로서 LLM을 배포하는 새로운 일반 온라인 프레임워크인 TWOSOME을 제안합니다. 먼저, 행동 정책을 수립하기 위해 각 유효한 행동의 공동 확률을 LLM으로 쿼리합니다. 그런 다음, 정책의 안정성과 견고성을 높이기 위해 두 가지 정규화 방법을 제안하고 네 가지 신속한 설계 원칙을 요약합니다. 마지막으로, PPO에 의해 업데이트되는 로우랭크 어댑터(LoRA)가 장착된 하나의 고정된 LLM을 행위자와 비평가가 공유하는 새로운 파라미터 효율적 훈련 아키텍처를 설계합니다. TWOSOME을 평가하기 위해 광범위한 실험을 수행했습니다. i) TWOSOME은 고전적인 의사결정 환경인 Overcooked와 시뮬레이션 가정 환경인 VirtualHome 모두에서 기존의 RL 방식인 PPO와 프롬프트 튜닝 방식인 SayCan에 비해 훨씬 우수한 표본 효율과 성능을 보였습니다. ii) LLM의 오픈 어휘 기능을 활용하여 보이지 않는 작업에 대한 일반화 능력이 우수했습니다. iii) 우리의 프레임워크에서는 온라인 PPO 미세 조정 중에 LLM의 원래 능력에 큰 손실이 발생하지 않습니다. [abs|pdf]

[32/80] Energy-Based Concept Bottleneck Models: Unifying Prediction, Concept Intervention, and Conditional Interpretations

Keywords: concept_bottleneck_models, predicting_concepts, predicts_concept_black
Abstract: 개념 병목 모델(CBM)과 같은 기존 방식은 블랙박스 딥러닝 모델에 개념 기반 해석을 제공하는 데 성공적이었습니다. 이러한 모델은 일반적으로 입력이 주어지면 개념을 예측한 다음, 예측된 개념에 따라 최종 클래스 레이블을 예측하는 방식으로 작동합니다. 하지만 (1) 개념 간의 고차적이고 비선형적인 상호작용을 포착하지 못하는 경우가 많으며(예: 예측된 개념(예: "노란색 가슴")을 수정해도 상관관계가 높은 개념(예: "노란색 배")을 수정하는 데 도움이 되지 않아 최종 정확도가 최선이 아닌 경우), (2) 다양한 개념과 클래스 레이블 간의 복잡한 조건 의존성을 자연스럽게 정량화할 수 없습니다(예: "노란색 배"라는 클래스 레이블이 있는 이미지의 경우), 클래스 레이블이 '켄터키 워블러'이고 개념이 '검은 지폐'인 이미지에 대해 모델이 다른 개념인 '검은 왕관'을 정확하게 예측할 확률은 얼마인가), 따라서 블랙박스 모델이 어떻게 작동하는지에 대한 심층적인 통찰력을 제공하지 못합니다. 이러한 한계에 대응하기 위해 저희는 에너지 기반 개념 병목 모델(ECBM)을 제안합니다. ECBM은 신경망 세트를 사용해 후보(입력, 개념, 클래스) 튜플의 공동 에너지를 정의합니다. 이러한 통합 인터페이스를 통해 예측, 개념 보정, 조건부 종속성 정량화는 서로 다른 에너지 함수를 구성하여 생성되는 조건부 확률로 표현됩니다. ECBM은 기존 CBM의 두 가지 한계를 모두 해결하여 더 높은 정확도와 더 풍부한 개념 해석을 제공합니다. 경험적 결과에 따르면 이 접근 방식은 실제 데이터 세트에서 최신 기술을 능가하는 것으로 나타났습니다. [abs|pdf]

[33/80] FP6-LLM: Efficiently Serving Large Language Models Through FP6-Centric Algorithm-System Co-Design

Keywords: fp6_quantization_gpus, quantization_gpus, quantization_gpus_unfriendly
Abstract: 6비트 양자화(FP6)는 대규모 언어 모델(LLM)의 크기를 효과적으로 줄이고 다양한 애플리케이션에서 모델 품질을 일관되게 유지할 수 있습니다. 그러나 기존 시스템은 FP6 양자화에 대한 Tensor Core 지원을 제공하지 않으며, LLM 추론 중에 실질적인 성능 향상을 달성하는 데 어려움을 겪습니다. (1) 불규칙한 비트 폭을 가진 모델 가중치의 비우호적인 메모리 액세스와 (2) 가중치 양자화의 높은 런타임 오버헤드로 인해 GPU에서 FP6 양자화를 지원하는 것은 어렵습니다. 이러한 문제를 해결하기 위해 유니티는 다양한 양자화 비트 폭에 대한 부동 소수점 가중치를 텐서 코어에서 통합 지원하는 최초의 풀스택 GPU 커널 설계 체계인 TC-FPx를 제안합니다. TC-FPx 커널을 기존 추론 시스템에 통합하여 양자화된 LLM 추론을 위한 새로운 엔드 투 엔드 지원(FP6-LLM)을 제공함으로써 추론 비용과 모델 품질 간에 더 나은 균형을 이룰 수 있습니다. 실험 결과, FP6-LLM을 사용하면 단일 GPU만으로 LLaMA-70b를 추론할 수 있어 FP16 기준보다 1.69배~2.65배 높은 정규화된 추론 처리량을 달성할 수 있는 것으로 나타났습니다. 소스 코드는 곧 공개될 예정입니다. [abs|pdf]

[34/80] Towards Cheaper Inference in Deep Networks with Lower Bit-Width Accumulators

Keywords: quantization_deep_neural, quantization_deep, research_quantization_deep
Abstract: 심층 신경망(DNN)의 양자화에 대한 대부분의 연구는 높은 수준의 프레임워크(예: 가중치, 활성화, 그라데이션)에서 볼 수 있는 텐서의 정밀도를 낮추는 데 초점을 맞추고 있습니다. 하지만 현재의 하드웨어는 여전히 정확도가 높은 핵심 연산에 의존하고 있습니다. 가장 중요한 것은 곱셈 연산입니다. 이 고정밀 누적 연산은 점차 주요 계산 병목 현상이 되고 있습니다. 지금까지는 저정밀 누산기를 사용하면 성능이 크게 저하되었기 때문입니다. 이 연구에서는 하이엔드 DNN을 훈련하고 미세 조정하는 간단한 방법을 제시하여 처음으로 정확도를 크게 저하시키지 않으면서도 저렴한 12$ 비트 어큐뮬레이터를 활용할 수 있도록 합니다. 마지막으로, 누적 정밀도를 더 낮추면 세분화된 기울기 근사치를 사용하면 DNN 정확도를 향상시킬 수 있음을 보여줍니다. [abs|pdf]

[35/80] CompactifAI: Extreme Compression of Large Language Models using Quantum-Inspired Tensor Networks

Keywords: llm_compression_approach, llm_compression, innovative_llm_compression
Abstract: ChatGPT 및 LlaMA와 같은 대규모 언어 모델(LLM)은 생성형 인공 지능(AI)에서 빠르게 발전하고 있지만, 그 엄청난 크기로 인해 막대한 훈련 및 추론 비용, 상당한 에너지 수요, 현장 배포의 한계 등 상당한 과제를 안고 있습니다. 가지치기, 증류, 저순위 근사화와 같은 기존의 압축 방법은 네트워크의 유효 뉴런 수를 줄이는 데 중점을 두는 반면, 양자화는 개별 가중치의 수치 정밀도를 낮춰 뉴런 수를 고정된 상태로 유지하면서 모델 크기를 줄이는 데 중점을 둡니다. 이러한 압축 방법은 실제로 비교적 성공적으로 사용되어 왔지만, 뉴런 수를 줄이는 것이 최적의 전략이라고 믿을 만한 설득력 있는 근거는 없습니다. 이러한 맥락에서 이 백서에서는 퀀텀에서 영감을 받은 텐서 네트워크를 사용해 모델의 상관관계 공간에 초점을 맞추는 혁신적인 LLM 압축 방식인 CompactifAI를 소개하며, 이를 통해 보다 제어되고 정교하며 해석 가능한 모델 압축을 가능하게 합니다. 이 방법은 다목적이며 다른 압축 기술과 함께 또는 그 위에 구현할 수 있습니다. 벤치마크로서, 유니티는 CompactifAI만으로 LlaMA-2 7B 모델을 원래 크기의 $30%$로 압축하면서도 짧은 분산 재훈련 후 원래 정확도의 $90%$ 이상을 회복할 수 있음을 입증했습니다. [abs|pdf]

[36/80] GQHAN: A Grover-inspired Quantum Hard Attention Network

Keywords: quantum_hard_attention, quantum_attention, quantum_attention_mechanism
Abstract: 현재의 수많은 양자 머신러닝(QML) 모델은 양자 데이터의 중요성을 식별하는 데 부적절함을 보여 광범위한 양자 데이터 세트를 처리할 때 효율성이 떨어집니다. 위의 QML 병목 현상을 효율적으로 해결할 수 있을 것으로 기대되는 하드 어텐션 메커니즘(HAM)은 비차별성이라는 중대한 문제에 직면하여 광범위한 적용성에 제약이 있습니다. 이러한 HAM과 QML의 딜레마에 대응하기 위해 유연한 오라클(FO)과 적응형 확산 연산자(ADO)로 구성된 Grover에서 영감을 받은 양자 하드 주의 메커니즘(GQHAM)이 제안되었습니다. 특히 FO는 다양한 이산적 운명을 엮어내는 유연한 제어(FC)를 통해 이산적 프리미티브(DP)의 활성화 또는 마스킹을 실행함으로써 비분화성 문제를 극복하도록 설계되었습니다. 이를 기반으로 이러한 이산적 선택은 특별히 정의된 양자 하드 어텐션 점수(QHAS)로 시각화할 수 있습니다. 또한, GQHAM의 일반성과 유연성을 높이기 위해 훈련 가능한 ADO가 고안되었습니다. 마지막으로, 패션 MNIST 바이너리 분류를 위해 페니레인 플랫폼에 QGHAM을 기반으로 한 Grover에서 영감을 얻은 양자 하드 주의 네트워크(GQHAN)를 구축합니다. 실험 결과에 따르면 GQHAN은 비분화성 장애물을 능숙하게 극복하여 정확도와 학습 능력에서 현존하는 양자 소프트 자기주의 메커니즘의 효율성을 능가하는 것으로 나타났습니다. 노이즈 실험에서 GQHAN은 정확도에서는 비트 플립 노이즈에, 학습 성능에서는 진폭 감쇠 노이즈에 더 강합니다. GQHAN의 제안은 양자 주의 메커니즘(QAM)을 풍부하게 하고, 미래 양자 컴퓨터가 대규모 데이터를 처리할 수 있는 기반을 마련하며, 양자 컴퓨터 비전의 발전을 촉진할 것으로 예상됩니다. [abs|pdf]

[37/80] From Requirements to Architecture: An AI-Based Journey to Semi-Automatically Generate Software Architectures

Keywords: generate_software_architecture, generated_architecture_models, generated_architecture_candidates
Abstract: 도메인 모델과 소프트웨어 아키텍처를 설계하는 것은 소프트웨어 개발에서 중요한 과제인데, 이는 결과물인 아키텍처가 시스템의 서비스 품질을 충족하는 데 중요한 역할을 하기 때문입니다. 시간 압박으로 인해 아키텍트는 도메인을 철저히 분석하고 여러 후보를 평가하여 가장 적합한 아키텍처를 선택하는 대신 제한된 도메인 이해도, 패턴, 경험을 바탕으로 하나의 아키텍처만 모델링하는 경우가 많습니다. 기존 접근 방식은 요구사항에 따라 도메인 모델을 생성하려고 하지만, 좋은 결과를 얻기 위해서는 여전히 많은 시간이 소요되는 수작업이 필요합니다. 따라서 본 비전 백서에서는 인공지능 기법을 활용하여 요구사항을 기반으로 소프트웨어 아키텍처 후보를 반자동으로 생성하는 방법을 제안합니다. 또한 대규모 언어 모델 및 정량적 분석과 결합된 아키텍처 트레이드오프 분석 방법 등을 사용하여 생성된 아키텍처 후보를 자동으로 평가하고 트레이드오프를 분석하는 방법을 구상하고 있습니다. 이러한 접근 방식을 평가하기 위해 질적 연구를 수행하여 생성된 아키텍처 모델의 품질과 제안 프로세스의 효율성 및 효과성을 분석하고자 합니다. [abs|pdf]

[38/80] Ta'keed: The First Generative Fact-Checking System for Arabic Claims

Keywords: arabic_automatic_fact, automatic_fact_checking, credibility_particularly_arabic
Abstract: 이 백서에서는 설명 가능한 아랍어 자동 사실 확인 시스템인 Ta'keed를 소개합니다. 기존 연구는 종종 주장을 '참' 또는 '거짓'으로 분류하는 데 초점을 맞추지만, 특히 아랍어에서 주장 신뢰성에 대한 설명을 생성하는 데는 한계가 있습니다. Ta'keed는 정보 검색과 LLM 기반 클레임 검증이라는 두 가지 주요 구성 요소를 활용하여 검색된 스니펫을 기반으로 클레임의 진실성을 평가함으로써 이러한 격차를 해결합니다. 우리는 시스템을 평가하기 위해 수동으로 정당화된 레퍼런스가 포함된 테스트용 골드 라벨 데이터 세트인 ArFactEx를 컴파일했습니다. 초기 모델은 분류 작업에서 0.72의 유망한 F1 점수를 획득했습니다. 한편, 시스템에서 생성된 설명은 통사론적, 의미론적으로 골드 표준 설명과 비교됩니다. 이 연구에서는 의미적 유사성을 사용하여 평가할 것을 권장하며, 그 결과 평균 코사인 유사성 점수는 0.76점이었습니다. 또한 다양한 스니펫 수량이 클레임 분류 정확도에 미치는 영향을 살펴본 결과, 상위 7개 히트를 사용하는 모델이 F1 점수 0.77로 다른 모델을 능가하는 등 잠재적인 상관관계가 있는 것으로 나타났습니다. [abs|pdf]

[39/80] CreativeSynth: Creative Blending and Synthesis of Visual Arts based on Multimodal Diffusion

Keywords: generative_models_artistic, adapting_models_artistic, artistic_image_generation
Abstract: 대규모 텍스트-이미지 생성 모델은 방대한 양의 고품질 이미지를 합성할 수 있는 능력을 보여주며 인상적인 발전을 이루었습니다. 하지만 이러한 모델을 예술적 이미지 편집에 적용하는 데는 두 가지 중요한 과제가 있습니다. 첫째, 사용자는 입력 이미지의 시각적 요소를 세심하게 묘사하는 텍스트 프롬프트를 작성하는 데 어려움을 겪습니다. 둘째, 일반적인 모델은 특정 영역에 수정을 가할 때 전체적인 예술적 스타일을 방해하는 경우가 많아 일관성 있고 미적으로 통일된 아트웍을 만드는 데 어려움이 있습니다. 이러한 장애물을 극복하기 위해 유니티는 예술적 이미지 생성 분야에서 멀티모달 입력을 조정하고 멀티태스킹을 수행할 수 있는 확산 모델을 기반으로 하는 혁신적인 통합 프레임워크인 크리에이티브싱스(CreativeSynth)를 구축했습니다. 크리에이티브신스는 멀티모달 기능과 맞춤형 주의 메커니즘을 통합하여 반전 및 실시간 스타일 전송을 통해 현실 세계의 시맨틱 콘텐츠를 예술 영역으로 쉽게 가져올 수 있습니다. 이를 통해 원본 모델 파라미터의 무결성을 유지하면서 이미지 스타일과 콘텐츠를 정밀하게 조작할 수 있습니다. 엄격한 정성적, 정량적 평가를 통해 크리에이티브신스가 예술적 이미지의 충실도를 높이고 고유의 미적 본질을 보존하는 데 탁월하다는 것이 입증되었습니다. 크리에이티브신스는 제너레이티브 모델과 예술적 기교 사이의 간극을 해소함으로써 맞춤형 디지털 팔레트가 되었습니다. [abs|pdf]

[40/80] Left/Right Brain, human motor control and the implications for robotics

Keywords: bilateral_neural_network, achieved_training_hemispheres, bilateral_neural
Abstract: 신경망 움직임 컨트롤러는 기존 제어 방식에 비해 다양한 이점을 제공하지만, 안정적으로 정밀한 움직임을 생성하지 못하기 때문에 널리 채택되지는 않았습니다. 이 연구에서는 운동 작업을 위한 제어 시스템으로서 양측 신경망 아키텍처를 탐구합니다. 우리는 다양한 작업에서 인간에게서 관찰되는 것과 유사한 반구적 전문화, 즉 우세한 시스템(일반적으로 오른손, 좌반구)은 움직임의 조정 및 효율성과 관련된 작업에서 탁월하고 비우세한 시스템은 위치 안정성이 필요한 작업에서 더 나은 성능을 발휘하는 것을 목표로 삼았습니다. 각 반구의 예상 행동에 맞춰 서로 다른 손실 함수로 반구를 훈련시킴으로써 전문화를 달성했습니다. 우리는 전문화된 반구가 있는 경우와 없는 경우, 반구 간 연결이 있는 경우와 없는 경우(생물학적 뇌량을 나타내는), 전문화가 있는 경우와 없는 경우를 양측 모델과 일방적 모델을 비교했습니다. 이 모델들은 인간 운동 제어 문헌에서 흔히 볼 수 있는 두 가지 과제, 즉 우성 시스템에 적합한 무작위 도달 과제(조정 능력이 뛰어난 모델)와 비우성 시스템에 적합한 자세 유지 과제(보다 안정적인 움직임이 가능한 모델)에 대해 훈련 및 테스트를 거쳤습니다. 각 시스템은 선호하는 과제에서 비우세 시스템보다 더 나은 성능을 보였습니다. 두 과제 모두에서 양측성 모델이 '비선호' 손보다 더 나은 성능을 보였으며, '선호' 손과 동등하거나 더 나은 성능을 보였습니다. 코퍼스 콜로섬은 성능을 향상시키는 경향이 있지만, 전문화된 모델의 경우 항상 그런 것은 아닙니다. [abs|pdf]

[41/80] Towards Goal-oriented Large Language Model Prompting: A Survey

Keywords: goal_oriented_prompt, prompt_engineering, goal_oriented_prompting
Abstract: 대규모 언어 모델(LLM)은 다양한 다운스트림 작업에서 눈에 띄는 성능을 보여 왔으며, 프롬프트 엔지니어링은 LLM의 성능을 최적화하는 데 중추적인 역할을 합니다. 이 백서는 현재의 프롬프트 엔지니어링 방법에 대한 개요가 아니라, LLM이 인간처럼 사고할 것이라는 의인화된 가정을 전제로 프롬프트 설계의 한계를 강조하는 데 목적이 있습니다. 35개의 대표적 연구를 검토한 결과, 머신러닝이 기존의 인간 논리적 사고를 따르도록 유도하는 목표 지향적 프롬프트 구성이 머신러닝의 성능을 크게 향상시킨다는 사실을 입증했습니다. 또한 목표 지향적 프롬프트 방식을 상호 연결된 5단계로 분류하는 새로운 분류법을 소개하고, 적용 가능한 10가지 과제를 요약하여 프레임워크의 광범위한 적용 가능성을 입증합니다. 네 가지 향후 방향을 제시함으로써 목표 지향적 프롬프트 엔지니어링을 더욱 강조하고 촉진할 수 있기를 바랍니다. [abs|pdf]

[42/80] GauU-Scene: A Scene Reconstruction Benchmark on Large Scale 3D Reconstruction Dataset Using Gaussian Splatting

Keywords: accurate_point_cloud, point_cloud_dataset, scene_reconstruction_benchmark
Abstract: 유니티의 방대한 U-Scene 데이터 세트에서 새로 개발된 3D 표현 방식인 가우시안 스플래팅을 사용한 새로운 대규모 장면 재구성 벤치마크를 소개합니다. U-Scene은 1.5제곱킬로미터가 넘는 면적을 포함하며, 포괄적인 RGB 데이터 세트와 LiDAR 실측 데이터가 결합된 것이 특징입니다. 데이터 수집을 위해 유니티는 고정밀 젠뮤즈 L1 라이다를 장착한 매트릭스 300 드론을 사용해 옥상 데이터를 정밀하게 수집했습니다. 이 데이터 세트는 1.5km$^2$ 이상의 고급 공간 분석을 위한 도시 및 학업 환경의 독특한 조합을 제공합니다. 가우시안 스플래팅을 사용한 U-씬에 대한 평가에는 다양하고 새로운 관점에서의 상세한 분석이 포함되어 있습니다. 또한 이러한 결과를 정확한 포인트 클라우드 데이터 세트에서 도출된 결과와 나란히 배치하여 멀티모달 정보 결합의 중요성을 강조하는 중요한 차이점을 강조합니다 [abs|pdf]

[43/80] Unitxt: Flexible, Shareable and Reusable Data Preparation and Evaluation for Generative AI

Keywords: textual_data_workflows, text_processing_pipelines, textual_data_preparation
Abstract: 생성형 NLP의 역동적인 환경에서 기존의 텍스트 처리 파이프라인은 특정 데이터 세트, 작업, 모델 조합에 맞춰져 있기 때문에 연구의 유연성과 재현성을 제한합니다. 시스템 프롬프트, 모델별 형식, 지침 등 복잡성이 증가함에 따라 구조화되고 모듈화된 맞춤형 솔루션으로의 전환이 요구되고 있습니다. 이러한 요구에 부응하기 위해 Lionbridge는 제너레이티브 언어 모델에 맞춘 맞춤형 텍스트 데이터 준비 및 평가를 위한 혁신적인 라이브러리인 Unitxt를 선보입니다. Unitxt는 기본적으로 HuggingFace 및 LM-eval-harness와 같은 공통 라이브러리와 통합되며 처리 흐름을 모듈식 구성 요소로 분해하여 실무자 간에 쉽게 사용자 정의하고 공유할 수 있습니다. 이러한 구성 요소에는 모델별 형식, 작업 프롬프트 및 기타 여러 가지 포괄적인 데이터 세트 처리 정의가 포함됩니다. Unitxt-Catalog는 이러한 구성 요소를 중앙 집중화하여 최신 텍스트 데이터 워크플로우에서 협업과 탐색을 촉진합니다. 단순한 도구가 아닌 커뮤니티 중심의 플랫폼인 Unitxt는 사용자가 공동으로 파이프라인을 구축, 공유, 발전시킬 수 있도록 지원합니다. 다음 https URL에서 Unitxt 커뮤니티에 가입하세요 [abs|pdf]

[44/80] CMMU: A Benchmark for Chinese Multi-modal Multi-type Question Understanding and Reasoning

Keywords: language_models_mllms, benchmark_multi_modal, modal_large_language
Abstract: 다중 모드 대규모 언어 모델(MLLM)은 괄목할 만한 발전을 이루며 강력한 지식 이해력과 추론 능력을 입증했습니다. 그러나 MLLM의 지능을 평가하는 데 필수적인 도메인별 지식의 숙달은 여전히 어려운 과제입니다. 도메인별 지식에 대한 현재의 멀티모달 벤치마크는 객관식 문항에 집중되어 있고 주로 영어로만 제공되기 때문에 평가의 포괄성에 한계가 있습니다. 이를 위해 중국어로 된 다중 모드 및 다중 유형 문제 이해 및 추론에 대한 새로운 벤치마크인 CMMU를 소개합니다. CMMU는 7개 과목 3,603문항으로 구성되어 있으며, 초등학교부터 고등학교까지의 지식을 포괄합니다. 문제는 객관식, 선다형, 주관식, 빈칸 채우기의 세 가지 유형으로 분류할 수 있어 중국어 학습자에게 더 큰 도전을 선사합니다. 또한 객관식 문제를 평가하기 위해 시프트체크라는 엄격한 평가 전략을 제안합니다. 이 전략은 위치 편향을 줄이고, 무작위성이 정답에 미치는 영향을 최소화하며, 위치 편향에 대한 정량적 분석을 수행하는 것을 목표로 합니다. 7개의 오픈소스 MLLM과 GPT4-V, Gemini-Pro, Qwen-VL-Plus를 평가했습니다. 그 결과 CMMU가 최근 MLLM에 상당한 도전을 제기하고 있음을 보여줍니다. [abs|pdf]

[45/80] ConstraintChecker: A Plugin for Large Language Models to Reason on Commonsense Knowledge Bases

Keywords: reasoning_commonsense_knowledge, relational_constraints_cskbs, knowledge_instance_constraintchecker
Abstract: 상식 지식 기반에 대한 추론, 즉 CSKB 추론은 원래의 CSKB에 있는 참조 지식과 외부의 선행 지식을 기반으로 새로운 상식 지식을 획득하는 방법으로 연구되어 왔습니다. 다양한 추론 작업에서 대규모 언어 모델(LLM)과 프롬프트 엔지니어링 기법이 발전하고 있음에도 불구하고, 여전히 CSKB 추론을 다루는 데 어려움을 겪고 있습니다. 문제 중 하나는 상징적 추론 능력의 부족으로 인해 문맥 내 예시만으로는 CSKB의 명시적 관계 제약을 획득하기 어렵다는 점입니다(Bengio et al., 2021). 이를 위해, 우리는 명시적 제약 조건을 제공하고 확인하는 프롬프트 기법 위에 플러그인인 ConstraintChecker를 제안했습니다. 새로운 지식 인스턴스를 고려할 때 ConstraintChecker는 규칙 기반 모듈을 사용하여 제약 조건 목록을 생성한 다음, 제로 샷 학습 모듈을 사용하여 이 지식 인스턴스가 모든 제약 조건을 충족하는지 확인합니다. 그런 다음 획득한 제약 조건 검사 결과를 주요 프롬프트 기법의 출력과 집계하여 최종 출력을 생성합니다. CSKB 추론 벤치마크에 대한 실험 결과는 모든 프롬프트 방식에 비해 일관된 개선 효과를 가져옴으로써 우리 방법의 효율성을 입증합니다. 코드와 데이터는 이 https URL에서 확인할 수 있습니다. [abs|pdf]

[46/80] Investigate-Consolidate-Exploit: A General Strategy for Inter-Task Agent Self-Evolution

Keywords: ai_agents, ai_agents_inter, agent_tasks
Abstract: 이 백서에서는 작업 간 자기 진화를 통해 AI 에이전트의 적응력과 유연성을 향상시키는 새로운 전략인 ICE(Investigate-Consolidate-Exploit)에 대해 소개합니다. 작업 내 학습에 초점을 맞춘 기존 방식과 달리 ICE는 인간의 경험 학습과 유사하게 작업 간 지식 이전을 촉진하여 진정한 자기 진화를 이룰 수 있도록 합니다. 이 전략은 계획과 실행 궤적을 동적으로 조사하여 단순화된 워크플로우와 파이프라인으로 통합하고 이를 활용하여 업무 실행을 개선합니다. XAgent 프레임워크에 대한 실험을 통해 API 호출을 최대 80%까지 줄이고 모델 기능에 대한 수요를 크게 줄인 ICE의 효과가 입증되었습니다. 특히 GPT-3.5와 결합했을 때 ICE의 성능은 다양한 에이전트 작업에서 원시 GPT-4의 성능과 비슷했습니다. 이러한 자체 진화 접근 방식은 에이전트 설계의 패러다임 전환을 의미하며, 더욱 강력한 AI 커뮤니티와 에코시스템에 기여하고 완전한 자율성에 한 걸음 더 다가갈 수 있다고 주장합니다. [abs|pdf]

[47/80] Cross-Domain Few-Shot Learning via Adaptive Transformer Networks

Keywords: shot_learning, shot_learning_works, domain_shot_learning
Abstract: 대부분의 소수의견 학습 작업은 기본 작업과 목표 작업 간에 동일한 도메인 가정에 의존하기 때문에 실제 적용이 어렵습니다. 이 백서에서는 기본 작업과 목표 작업 사이에 큰 도메인 이동이 존재하는 교차 도메인 소수점 학습을 위한 간단하지만 효과적인 솔루션인 적응형 트랜스포머 네트워크(ADAPTER)를 제안합니다. ADAPTER는 두 도메인 간에 전이 가능한 특징을 학습하기 위해 양방향 교차 주의라는 아이디어를 기반으로 구축되었습니다. 제안된 아키텍처는 감독 붕괴 문제를 피하기 위해 다양하고 덜 편향된 특징을 생성하기 위해 DINO로 훈련됩니다. 또한 임베딩 공간에서 가까운 샘플의 예측 레이블도 고려함으로써 예측의 일관성과 신뢰성을 향상시키기 위해 레이블 평활화 접근법을 제안합니다. ADAPTER의 성능은 BSCD-FSL 벤치마크에서 엄격하게 평가되었으며, 상당한 마진으로 선행 기술을 능가합니다. [abs|pdf]

[48/80] Towards Consistent Natural-Language Explanations via Explanation-Consistency Finetuning

Keywords: generate_inconsistent_explanations, consistent_natural_language, fluent_explanations
Abstract: 대규모 언어 모델(LLM)은 종종 설득력 있고 유창한 설명을 생성합니다. 하지만 인간과 달리 다른 입력에 대해 일관성 없는 설명을 생성하는 경우가 많습니다. 예를 들어, "참새도 날 수 있나요?"라는 질문에 대해 "모든 새는 날 수 있다"라는 설명을 생성하는 반면, "펭귄도 날 수 있나요?"라는 관련 질문에 대해서는 "아니요"라고 대답하는 경우가 있습니다. 설명은 관련 예제에서 일관성을 유지하여 인간이 여러 예제에서 LLM의 의사 결정 과정을 시뮬레이션할 수 있도록 해야 합니다. 저희는 관련 예제에 대해 보다 일관된 자연어 설명을 생성하도록 LLM을 조정하는 방법인 설명 일관성 미세 조정(EC-fine-tuning)을 제안합니다. EC 미세 조정은 일관된 설명을 포함하도록 세심하게 구성된 합성 데이터에 대해 LLM을 미세 조정하는 작업을 포함합니다. 다양한 도메인의 다양한 질문-답변 데이터 세트에 걸쳐 EC-fine-tuning은 4개의 미세 조정 데이터 세트에서 10.0%의 상대적 설명 일관성 향상을 가져왔으며, 미세 조정 중에 볼 수 없었던 7개의 분포 외 데이터 세트에 대해서도 일반화되었습니다(상대적 +4.5%). 코드는 이 https URL 에서 확인할 수 있습니다. [abs|pdf]

[49/80] Leeroo Orchestrator: Elevating LLMs Performance Through Model Integration

Keywords: training_data_orchestrator, llm_based_orchestrator, models_leeroo_orchestrator
Abstract: 이 백서에서는 숙련된 여러 LLM의 집단지성을 활용하여 새로운 최첨단 기술을 개발할 수 있는 아키텍처를 제안합니다. 이 프레임워크의 핵심은 최적의 작업 실행을 위해 적합한 기본 LLM 전문가를 선택하는 데 능숙한 LLM 기반 오케스트레이터입니다. 강화 학습의 셀프 플레이에서 영감을 받아 쿼리 생성, 오케스트레이션, 평가의 루프를 만들어 오케스트레이터를 위한 학습 데이터를 생성했습니다. 평가는 허깅 페이스에서 사용할 수 있는 7B, 13B, 34B 매개변수가 있는 모델을 사용하여 MMLU 벤치마크에 중점을 두었습니다. 그 결과 새로운 최첨단 오픈소스 모델이 입증되었습니다: 유니티의 리루 오케스트레이터는 믹스트랄 모델과 동등한 성능을 달성하면서도 비용은 3분의 2에 불과합니다. 또한, 허용 비용을 높이면 동일한 비용 수준에서 정확도가 75.9%에 달해 Mixtral의 정확도를 5% 이상 능가합니다. GPT4를 기본 모델 풀에 통합했을 때 더욱 향상된 성능이 관찰되었습니다. 리루 오케스트레이터는 절반의 비용으로 GPT4의 성능과 거의 일치하며, 심지어 25%의 비용 절감으로 GPT4의 결과를 뛰어넘었습니다. 이러한 결과는 여러 LLM 간의 시너지를 최적화하여 우수한 성능 결과를 달성함으로써 비용 효율적인 최첨단 LLM을 개발할 수 있는 유니티 아키텍처의 잠재력을 보여줍니다. [abs|pdf]

[50/80] Learning to Manipulate Artistic Images

Keywords: image_manipulation_network, style_image_manipulation, artistic_images_methods
Abstract: 최근 컴퓨터 비전의 발전으로 예술적 창작의 장벽이 크게 낮아졌습니다. 예시 기반 이미지 번역 방법은 유연성과 제어 가능성으로 인해 많은 주목을 받고 있습니다. 하지만 이러한 방법들은 의미론에 대한 가정을 전제로 하거나 의미론적 정보를 입력으로 요구하는데, 예술적 이미지에서는 정확한 의미론을 얻기가 쉽지 않습니다. 또한, 이러한 방법들은 사전 학습 데이터로 인한 교차 도메인 아티팩트가 발생하고 공간 도메인에서의 특징 압축으로 인해 부정확한 구조를 생성합니다. 본 논문에서는 의미 없는 정보를 가이드로 활용하고 이미지 생성을 위해 자기 지도 방식으로 영역 이동 전략을 활용하는 임의 스타일 이미지 조작 네트워크(SIM-Net)를 제안합니다. 이 방법은 계산 효율성과 고해상도의 균형을 어느 정도 맞출 수 있습니다. 또한, 우리의 방법은 제로 샷 스타일의 이미지 조작을 용이하게 합니다. 정성적 실험과 정량적 실험 모두 최첨단 방법보다 우리 방법이 우월하다는 것을 입증합니다. 코드는 다음 https URL에서 확인할 수 있습니다. [abs|pdf]

[51/80] BootPIG: Bootstrapping Zero-shot Personalized Image Generation Capabilities in Pretrained Diffusion Models

Keywords: pretrained_text_image, text_image_generation, text_image_models
Abstract: 최근의 텍스트-이미지 생성 모델은 입력 프롬프트를 충실히 따르는 이미지를 생성하는 데 놀라운 성공을 거두었습니다. 그러나 원하는 개념을 설명하기 위해 단어를 사용해야 하기 때문에 생성된 개념의 모양에 대한 제어가 제한적입니다. 이 연구에서는 기존의 텍스트-이미지 확산 모델에서 개인화 기능을 활성화하는 접근 방식을 제안하여 이러한 단점을 해결합니다. 본 논문에서는 사용자가 생성된 이미지에서 개념의 모양을 안내하기 위해 객체의 참조 이미지를 제공할 수 있는 새로운 아키텍처(BootPIG)를 제안합니다.
제안된 BootPIG 아키텍처는 사전 학습된 텍스트-이미지 확산 모델을 최소한으로 수정하고 별도의 UNet 모델을 활용하여 생성된 이미지를 원하는 모양으로 유도합니다. 사전 학습된 텍스트-이미지 모델, LLM 채팅 에이전트, 이미지 세분화 모델에서 생성된 데이터를 사용하여 BootPIG 아키텍처에서 개인화 기능을 부트스트랩할 수 있는 학습 절차를 소개합니다. 며칠의 사전 학습이 필요한 기존 방식과 달리 BootPIG 아키텍처는 약 1시간 만에 학습할 수 있습니다. 드림부스 데이터 세트에 대한 실험 결과, BootPIG는 기존의 제로샷 방식보다 성능이 뛰어나면서도 테스트 시간 미세 조정 방식과 비슷하다는 것이 입증되었습니다. 사용자 연구를 통해 참조 오브젝트의 외형에 대한 충실도를 유지하고 텍스트 프롬프트와 일치시키는 데 있어 기존 방법보다 BootPIG 세대에 대한 선호도를 검증했습니다. [abs|pdf]

[52/80] Dynamic Long-Term Time-Series Forecasting via Meta Transformer Networks

Keywords: forecasting_tasks, series_forecasting_tasks, representations_fast_learners
Abstract: 신뢰할 수 있는 장기 시계열 예측기는 실무에서 매우 요구되지만 낮은 계산 및 메모리 사용량, 동적 학습 환경에 대한 견고성 등 많은 난제에 직면해 있습니다. 이 백서에서는 동적 장기 시계열 예측 작업을 처리하기 위해 메타-변압기 네트워크(MANTRA)를 제안합니다. MANTRA는 빠른 학습자와 느린 학습자의 개념에 의존하며, 빠른 학습자 집합은 변화에 빠르게 적응하면서 데이터 분포의 다양한 측면을 학습합니다. 슬로우 러너는 패스트 러너에게 적합한 표현을 맞춤화합니다. 동적 환경에 대한 빠른 적응은 적은 수의 매개변수로 작업에 적합한 표현을 생성하는 범용 표현 트랜스포머 레이어를 사용하여 달성할 수 있습니다. 예측 길이가 서로 다른 4개의 데이터 세트를 사용한 실험을 통해 다변량 및 단변량 설정 모두에서 기준 알고리즘보다 최소 3% 개선된 접근 방식의 이점을 확인할 수 있습니다. MANTRA의 소스 코드는 이 https URL에서 공개적으로 사용할 수 있습니다. [abs|pdf]

[53/80] General Automatic Solution Generation of Social Problems

Keywords: automatic_social_operating, social_solution_generation, automatically_generating_solutions
Abstract: 현대 사회 시스템의 복잡성과 다면성이 날로 증가함에 따라 관련 사회 문제를 해결하기 위한 솔루션을 수동으로 생성하는 것은 매우 어려운 일이 되었습니다. 이러한 과제에 대응하기 위해 인공지능의 급속한 발전으로 솔루션을 자동으로 생성하기 위한 계산 방법론의 탐색이 촉진되었습니다. 그러나 현재 솔루션을 자동으로 생성하는 방법은 주로 특정 시나리오와 관련된 지역 사회 규제에 집중되어 있습니다. 여기서는 에이전트 기반 모델을 기반으로 구축되어 공간적, 시간적 차원에 걸쳐 사회 문제에 대한 글로벌 및 로컬 분석과 규제를 모두 가능하게 하는 일반적인 사회 솔루션 생성을 위해 설계된 자동 사회 운영 시스템(ASOS)을 소개합니다. ASOS는 사회적 역학을 포괄적이고 구조적으로 표현하기 위해 확장 가능한 소셜 시맨틱을 갖춘 하이퍼그래프를 채택합니다. 또한 표준화된 하이퍼그래프 작업을 위한 일반화된 프로토콜과 해석 가능한 솔루션을 제공하는 상징적인 하이브리드 프레임워크를 통합하여 규제 효과와 기능 실행 가능성 간의 균형을 맞춥니다. ASOS의 효과를 입증하기 위해 국제 석유 선물 시장 내 기상이변을 방지하는 영역에 적용했습니다. 새로운 메커니즘으로 보완된 새로운 거래 역할을 생성함으로써 ASOS는 불안정한 시장 상황을 능숙하게 식별하고 비영리 목적을 위한 선제적 개입을 할 수 있습니다. 이 연구는 ASOS가 우리 사회를 개선하기 위한 솔루션을 창출하기 위한 효율적이고 체계적인 접근 방식을 제공한다는 것을 보여줍니다. [abs|pdf]

[54/80] LocMoE: A Low-overhead MoE for Large Language Model Training

Keywords: large_language_models, novel_routing, clusters
Abstract: 전문가 혼합(MoE) 모델은 대규모 언어 모델(LLM)에 널리 사용되는 분산 및 통합 학습 방법으로, 모델을 효율적으로 희소화하고 확장할 수 있어 선호되고 있습니다. 그러나 MoE의 성능은 부하 불균형과 올투올 통신의 높은 지연 시간, 그리고 대규모 전문가 용량으로 인한 상대적으로 중복된 계산으로 인해 제한됩니다. 부하 불균형은 특정 전문가를 지속적으로 선택하는 경향이 있는 기존 라우팅 정책으로 인해 발생할 수 있습니다. 또한 올투올 절차에서 노드 간 통신이 빈번하게 발생하기 때문에 학습 시간이 상당히 길어집니다. 이러한 성능 문제를 해결하기 위해 본 논문에서는 노드 간 통신을 부분적으로 노드 내 통신으로 전환하여 로드 밸런스와 로컬리티를 결합한 새로운 라우팅 전략을 제안합니다. 특히, 전문가의 게이팅 가중치와 할당된 토큰 간의 최대 각도 편차를 통해 계산된 전문가 용량에 대한 최소 임계값이 존재한다는 사실을 밝혀냈습니다. 이러한 수정 사항을 다단계 라우팅이 포함된 MindSpore 프레임워크 기반의 PanGu-Sigma 모델에 포팅하고 Ascend 클러스터에서 실험을 수행합니다. 실험 결과, 제안된 LocMoE는 모델 정확도에 영향을 주지 않으면서도 해시 라우터와 스위치 라우터와 같은 기존 라우터에 비해 에포크당 훈련 시간을 12.68%~22.24%까지 단축하는 것으로 나타났습니다. [abs|pdf]

[55/80] WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models

Keywords: multimodal_comprehension_capabilities, agents_webvoyager_achieves, web_agent_tasks
Abstract: 대규모 언어 모델(LLM)의 발전은 실제 환경에서 자율적인 애플리케이션을 개발하는 새로운 시대로 이어져 고급 웹 기반 에이전트 제작의 혁신을 주도하고 있습니다. 기존 웹 에이전트는 일반적으로 하나의 입력 양식만 처리하고 단순화된 웹 시뮬레이터 또는 정적 웹 스냅샷에서만 평가되므로 실제 시나리오에서의 적용성이 크게 제한됩니다. 이러한 격차를 해소하기 위해 Adobe는 실제 웹 사이트와 상호 작용하여 사용자 지침을 엔드 투 엔드로 완료할 수 있는 혁신적인 LMM(대규모 멀티모달 모델) 기반 웹 에이전트인 WebVoyager를 소개합니다. 또한, 개방형 웹 에이전트 작업의 자동 평가 문제를 해결하기 위한 웹 에이전트를 위한 새로운 평가 프로토콜을 제안하여 GPT-4V의 강력한 멀티모달 이해 기능을 활용합니다. 널리 사용되는 15개의 웹사이트에서 실제 작업을 수집하여 에이전트를 평가함으로써 새로운 벤치마크를 만들었습니다. 웹보야저가 55.7%의 작업 성공률을 달성하여 GPT-4(모든 도구)와 웹보야저(텍스트 전용) 설정의 성능을 모두 크게 능가하는 것으로 나타나 실제 애플리케이션에서 웹보야저의 탁월한 역량을 입증했습니다. 또한 제안된 자동 평가가 사람의 판단과 85.3%의 일치도를 달성하여 실제 환경에서 웹 에이전트를 더욱 발전시킬 수 있는 기반을 마련했습니다. [abs|pdf]

[56/80] Spectral Clustering for Discrete Distributions

Keywords: clustering_distribution_affinity, clustering_distributions, methods_clustering_distributions
Abstract: 이산 분포 클러스터링(D2C)은 종종 바서스타인 이원 중심 방법으로 해결되었습니다. 이러한 방법은 클러스터가 베이센터로 잘 표현될 수 있다는 일반적인 가정을 전제로 하는데, 이는 많은 실제 애플리케이션에서 적용되지 않을 수 있습니다. 이 연구에서는 D2C에 대한 스펙트럼 클러스터링과 분포 선호도 측정(예: 최대 평균 불일치 및 바서스타인 거리)에 기반한 간단하면서도 효과적인 프레임워크를 제안합니다. 확장성을 향상시키기 위해 선형 최적 전송을 사용해 대규모 데이터 세트에서 선호도 행렬을 효율적으로 구축할 것을 제안합니다. 우리는 클러스터링 분포에서 제안된 방법의 성공에 대한 이론적 보장을 제공합니다. 합성 데이터와 실제 데이터에 대한 실험 결과, 클러스터링 정확도와 계산 효율성 모두에서 기준선을 크게 뛰어넘는 것으로 나타났습니다. [abs|pdf]

[57/80] Empowering Machines to Think Like Chemists: Unveiling Molecular Structure-Polarity Relationships with Hierarchical Symbolic Regression

Keywords: networks_symbolic_regression, hierarchical_symbolic_regression, neural_networks_symbolic
Abstract: 박층 크로마토그래피(TLC)는 분자 극성 분석에서 매우 중요한 기술입니다. 그 중요성에도 불구하고, 특히 인공 지능에 기반한 TLC 예측 모델의 해석 가능성은 여전히 과제로 남아 있습니다. 고차원 분자 지문이나 도메인 지식 기반 피처 엔지니어링을 활용하는 현재의 접근 방식은 표현력과 해석 가능성 사이에서 종종 딜레마에 직면합니다. 이러한 격차를 해소하기 위해 계층적 신경망과 기호 회귀를 결합한 비지도 계층적 기호 회귀(UHiSR)를 도입했습니다. UHiSR은 화학적으로 직관적인 극성 지수를 자동으로 추출하고 분자 구조와 크로마토그래피 거동을 연결하는 해석 가능한 방정식을 발견합니다. [abs|pdf]

[58/80] TPD: Enhancing Student Language Model Reasoning via Principle Discovery and Guidance

Keywords: reasoning_tasks_demonstrate, reasoning_tasks, reasoning_abilities
Abstract: 대규모 언어 모델(LLM)은 최근 놀라운 추론 능력을 보여주고 있습니다. 그러나 큰 모델은 추론 작업에서 작은 모델을 능가하는 경우가 많기 때문에 큰 모델에서 이러한 기능을 효과적으로 이전해야 하는 과제를 안고 있습니다. 기존의 접근 방식은 추론 과정에서 광범위한 미세 조정 데이터 또는 우수한 교사 LLM과의 지속적인 상호 작용에 크게 의존합니다. 이러한 한계를 해결하기 위해 '원리 발견을 통한 교육'(TPD)이라는 원리 기반 교사-학생 프레임워크를 도입했습니다. 인간의 학습 메커니즘에서 영감을 얻은 TPD는 원리 기반 접근 방식을 사용하여 교사와 학생 간의 상호 작용을 모방합니다. 교사 LLM은 학생 LLM의 오류를 기반으로 문제 해결 지침과 수정 원칙을 생성합니다. 이러한 원칙은 지침을 개선하고 검증 세트에서 유익한 예제를 선택하는 데 도움이 됩니다. 이를 통해 학생 모델은 교사의 지도와 자신의 실수로부터 모두 학습할 수 있습니다. 학생 모델이 추론을 시작하면 교사나 사람이 더 이상 개입할 필요가 없습니다. 8가지 추론 과제에 대한 광범위한 실험을 통해 TPD의 효과를 입증했습니다. 표준 연쇄 사고 프롬프트와 비교했을 때 TPD는 학생 모델의 성능을 크게 향상시켜 평균 6.2%$의 성능 향상을 달성했습니다. [abs|pdf]

[59/80] A V2X-based Privacy Preserving Federated Measuring and Learning System

Keywords: federated_measurement_learning, federated_learning, operating_federated_learning
Abstract: 미래의 자율주행차(AV)는 방대한 양의 데이터를 생성하는 다양한 센서를 사용할 것입니다. 당연히 이 데이터는 자율주행 알고리즘을 지원할 뿐만 아니라 다른 차량이나 인프라의 실시간 의사 결정에 도움을 줄 수 있습니다. 따라서 차량은 V2X(차량-사물 간 통신) 기술을 통해 측정 데이터를 교환해야 합니다. 또한 도로 네트워크의 상태를 예측하는 것도 유용할 수 있습니다. 이러한 예측을 통해 도로 혼잡을 완화하고 주차장 사용의 균형을 맞추거나 교통 흐름을 최적화할 수 있습니다. 이를 통해 운송 비용을 절감하고 환경에 미치는 영향도 줄일 수 있습니다.
이 백서에서는 차량 간(V2V) 통신을 통해 동료 차량에 실시간 데이터를 제공하는 동시에 차량 간 네트워크(V2N) 링크를 통해 연합 학습(FL) 체계를 운영하여 교통 네트워크의 예측 모델을 생성하는 연합 측정 및 학습 시스템을 제안합니다. 아직 실제 AV 데이터가 없기 때문에 비아이디(독립적이고 동일하게 분산된) 데이터 세트로 모델링하여 성능과 개인정보 보호 측면에서 제안된 시스템의 기능을 평가합니다. 그 결과, 제안된 FL 방식이 학습 성능을 개선하고 애그리게이터 서버 측에서 도청을 방지하는 것으로 나타났습니다. [abs|pdf]

[60/80] The Calibration Gap between Model and Human Confidence in Large Language Models

Keywords: confidence_llm_responses, responses_internal_confidence, confidence_human_users
Abstract: 대규모 언어 모델(LLM)을 사람이 신뢰할 수 있으려면 예측이 정확할 가능성을 정확하게 평가하고 전달할 수 있다는 점에서 잘 보정되어야 합니다. 최근의 연구는 내부 LLM 신뢰도 평가의 품질에 초점을 맞추었지만, LLM이 이러한 내부 모델 신뢰도를 인간 사용자에게 얼마나 잘 전달할 수 있는지에 대한 의문은 여전히 남아 있습니다. 이 백서에서는 LLM의 응답에 대한 외부의 인간 신뢰도와 모델의 내부 신뢰도 사이의 격차를 살펴봅니다. 객관식 질문이 포함된 실험을 통해 인간 사용자가 LLM 결과의 신뢰도를 식별하는 능력을 체계적으로 조사합니다. 이 연구는 두 가지 핵심 영역, 즉 (1) 실제 LLM 신뢰도에 대한 사용자의 인식을 평가하고 (2) 맞춤형 설명이 이러한 인식에 미치는 영향을 조사하는 데 초점을 맞춥니다. 이 연구는 LLM의 기본 설명이 사용자가 모델의 신뢰도와 정확도를 과대평가하게 만드는 경우가 많다는 점을 강조합니다. LLM의 내부 신뢰도를 더 정확하게 반영하도록 설명을 수정함으로써 사용자의 인식이 모델의 실제 신뢰도에 더 가깝게 맞춰지는 상당한 변화를 관찰할 수 있었습니다. 이러한 설명 접근 방식의 조정은 LLM 결과물을 평가할 때 사용자의 신뢰와 정확성을 향상시킬 수 있는 잠재력을 보여줍니다. 이번 연구 결과는 특히 AI가 생성한 정보의 신뢰도를 이해하는 것이 필수적인 고위험 애플리케이션에서 LLM의 신뢰도 수준을 투명하게 전달하는 것이 중요하다는 점을 강조합니다. [abs|pdf]

[61/80] Traffic Learning and Proactive UAV Trajectory Planning for Data Uplink in Markovian IoT Models

Keywords: uavs_scheduling_policy, optimal_policy_uav, uavs_scheduling
Abstract: 정보의 유효기간(AoI)은 데이터의 신선도를 측정하는 데 사용됩니다. IoT 네트워크에서 기존의 리소스 관리 방식은 통신 전에 디바이스와 기지국(BS) 간의 메시지 교환에 의존하기 때문에 AoI가 높고 에너지 소비가 많으며 신뢰성이 낮습니다. 무인 항공기(UAV)를 비행형 BS로 활용하면 AoI 최소화, 에너지 절약, 처리량 향상 등 많은 이점을 얻을 수 있습니다. 본 논문에서는 마르코비안 이벤트를 기반으로 IoT 디바이스의 트래픽 도착을 추정하는 새로운 학습 기반 프레임워크를 제시합니다. 학습은 여러 무인 항공기의 궤적과 스케줄링 정책을 최적화하기 위해 진행됩니다. 먼저 BS는 디바이스의 미래 트래픽을 예측합니다. 이를 위해 포워드 알고리즘(FA)과 장단기 메모리(LSTM)라는 두 가지 트래픽 예측 기법을 비교합니다. 그 후, 각 UAV의 최적 정책을 최적화하기 위해 심층 강화 학습(DRL) 접근 방식을 제안합니다. 마지막으로 제안된 DRL 접근법에 대한 최적의 보상 함수를 조작합니다. 시뮬레이션 결과, 제안된 알고리즘은 AoI, 스케줄링 정확도, 전송 전력 측면에서 랜덤워크(RW) 기준 모델보다 우수한 성능을 보였습니다. [abs|pdf]

[62/80] Navigating Dataset Documentations in AI: A Large-Scale Analysis of Dataset Cards on Hugging Face

Keywords: dataset_documentation_hugging, models_datasets_prominent, dataset_documentation_practices
Abstract: 머신러닝의 발전은 데이터 세트의 생성과 밀접한 관련이 있습니다. 데이터 문서화는 ML의 신뢰성, 재현성, 투명성에 필수적인 것으로 널리 인식되고 있지만, 현재 데이터 세트 문서화 관행에 대한 체계적인 경험적 이해가 부족합니다. 이에 대한 해답을 찾기 위해 ML 모델 및 데이터세트 공유와 협업을 위한 최대 규모의 플랫폼 중 하나인 Hugging Face를 대표적인 사례 연구로 살펴보았습니다. 이번 조사에서는 Hugging Face의 7,433개 데이터세트 문서를 모두 분석하여 Hugging Face 데이터세트 생태계에 대한 개요와 데이터세트 문서화 관행에 대한 인사이트를 제공함으로써 다음과 같은 5가지 주요 결과를 도출했습니다. (1) 데이터세트 카드 완성률은 데이터세트 인기도와 상관관계가 있는 뚜렷한 이질성을 보여줍니다. (2) 데이터 집합 카드의 각 섹션을 세부적으로 살펴보면 실무자들은 데이터 집합 설명과 데이터 집합 구조 섹션을 우선시하는 반면, 데이터 사용 시 고려 사항 섹션은 가장 낮은 비율의 내용을 담고 있는 것으로 나타났습니다. (3) 각 섹션의 하위 섹션을 분석하고 주제 모델링을 활용하여 핵심 주제를 파악함으로써 각 섹션에서 논의되는 내용을 파악하고, 데이터 사용 시 고려사항 섹션의 한계뿐만 아니라 기술적 및 사회적 영향을 모두 아우르는 중요한 주제를 강조합니다. (4) 또한 사용 섹션에서 데이터 세트의 접근성과 재현성을 개선해야 할 필요성을 강조합니다. (5) 또한 인적 주석 평가는 데이터 세트 카드의 전반적인 품질에 대한 개인의 인식을 형성하는 데 있어 포괄적인 데이터 세트 콘텐츠의 중추적인 역할을 강조합니다. 전반적으로 본 연구는 대규모 데이터 과학 분석을 통해 데이터 세트 문서 분석에 대한 독특한 관점을 제시하며, 머신러닝 연구에서 보다 철저한 데이터 세트 문서화의 필요성을 강조합니다. [abs|pdf]

[63/80] Investigating the Efficacy of Large Language Models for Code Clone Detection

Keywords: code_clone_detection, code_clones, code_clones_java
Abstract: 대규모 언어 모델(LLM)은 코드 생성과 같은 다양한 자연어 처리 및 소프트웨어 엔지니어링 작업에서 괄목할 만한 성공을 거두었습니다. LLM은 주로 프롬프트 기반 제로/소수 샷 패러다임에서 모델이 작업을 수행할 수 있도록 안내하는 데 사용됩니다. 목표: GPT 기반 모델은 코드 주석 생성이나 테스트 생성과 같은 작업을 위해 많이 연구되는 모델 중 하나입니다. 이러한 작업은 '생성' 작업입니다. 그러나 프롬프트 기반 패러다임을 사용한 분류와 같은 '비생성' 작업에 대한 LLM의 사용법에 대한 연구는 제한적입니다. 이 예비 탐색 연구에서는 비생성 작업인 코드 클론 탐지(CCD)에 대한 LLM의 적용 가능성을 조사했습니다. 방법: 먼저 CodeNet에서 파생된 단일 언어 및 교차 언어 CCD 데이터 세트를 구축하여 ChatGPT를 사용하여 제로 샷 설정에서 Java-Java 및 Java-Ruby 쌍의 $Type-4$ 코드 클론을 탐지하는 두 가지 다른 프롬프트를 조사했습니다. 다음 분석을 수행하여 CCD에서 ChatGPT의 강점과 약점을 파악했습니다. Results: ChatGPT는 다국어 CCD에서 기준선을 뛰어넘는 0.877점의 F1 점수를 얻었으며, 단일 언어 CCD에서 완전히 미세 조정된 모델인 0.878점의 F1 점수와 비슷한 성능을 달성했습니다. 또한 프롬프트와 문제의 난이도도 ChatGPT의 성능에 영향을 미칩니다. 마지막으로, 초기 분석을 바탕으로 인사이트와 향후 방향을 제공합니다 [abs|pdf]

[64/80] Multi-Object Navigation in real environments using hybrid policies

Keywords: planning_mapping_objects, slam_planning, slam_planning_recently
Abstract: 로봇 공학에서 내비게이션은 SLAM과 계획의 조합을 통해 고전적으로 해결되어 왔습니다. 최근에는 경유지 계획 외에도 (시각적) 고수준 추론의 중요한 구성 요소를 포함하는 문제가 시뮬레이션 환경에서 주로 대규모 머신 러닝, 특히 RL, 오프라인-RL 또는 모방 학습으로 해결되었습니다. 이러한 방법을 사용하려면 에이전트가 로컬 계획, 객체 매핑, 학습된 공간 표현 쿼리 등 다양한 기술을 학습해야 합니다. 경유지 계획(PointGoal)과 같은 간단한 작업과 달리 이러한 복잡한 작업의 경우 현재의 최신 모델은 시뮬레이션에서 철저하게 평가되었지만, 우리가 아는 한 아직 실제 환경에서는 평가되지 않았습니다.
이 작업에서는 sim2real 전송에 중점을 둡니다. 우리는 까다로운 멀티 오브젝트 내비게이션(Multi-ON) 작업을 목표로 삼고 원래 가상의 멀티 오브젝트의 실제 복제본이 포함된 물리적 환경으로 이식합니다. 이 문제를 두 가지 기술로 분해하는 하이브리드 내비게이션 방법을 도입합니다: (1) 경유지 탐색은 심볼릭 플래너와 결합된 고전적인 SLAM으로 해결하고, (2) 탐색, 시맨틱 매핑 및 목표 검색은 지도 학습과 RL의 조합으로 훈련된 심층 신경망으로 처리합니다. 이 접근 방식은 시뮬레이션과 실제 환경 모두에서 종단 간 방법과 비교하여 이점이 있으며, 이 작업에서 SOTA를 능가하는 성능을 보여줍니다. [abs|pdf]

[65/80] Don't Push the Button! Exploring Data Leakage Risks in Machine Learning and Transfer Learning

Keywords: data_leakage_ml, categorizes_data_leakage, leakage_ml_discussing
Abstract: 머신러닝(ML)은 여러 영역에서 예측 기능을 제공하면서 다양한 영역에 혁신을 가져왔습니다. 그러나 ML 도구의 접근성이 높아지면서, ML에 대한 전문 지식이 부족한 많은 실무자들이 기본 알고리즘에 대한 철저한 이해 없이 사용자 친화적인 인터페이스를 활용하는 '버튼만 누르면 되는' 접근 방식을 채택하고 있습니다. 이러한 접근 방식은 편리함을 제공하지만 결과의 신뢰성에 대한 우려를 불러일으키며 잘못된 성능 평가와 같은 문제를 야기합니다. 이 백서에서는 의도하지 않은 정보가 학습 데이터를 오염시켜 모델 성능 평가에 영향을 미치는 데이터 유출이라는 머신러닝의 중요한 문제를 다룹니다. 사용자는 이해 부족으로 인해 중요한 단계를 실수로 간과하여 실제 시나리오에 맞지 않을 수 있는 낙관적인 성능 추정치를 도출할 수 있습니다. 새로운 데이터에 대한 평가와 실제 성능 간의 불일치는 심각한 문제입니다. 특히 이 백서에서는 ML에서 데이터 누출을 분류하고 특정 조건이 ML 워크플로우를 통해 어떻게 전파될 수 있는지에 대해 논의합니다. 또한 데이터 유출과 해결하고자 하는 특정 작업 간의 연관성을 살펴보고, 전이 학습에서 데이터 유출이 어떻게 발생하는지 조사하며, 표준 귀납적 ML과 전이적 ML 프레임워크를 비교합니다. 결론에서는 주요 연구 결과를 요약하고, 견고하고 신뢰할 수 있는 ML 애플리케이션을 위해 데이터 유출 문제를 해결하는 것이 중요하다는 점을 강조합니다. [abs|pdf]

[66/80] Tweets to Citations: Unveiling the Impact of Social Media Influencers on AI Research Visibility

Keywords: social_media_scholarly, influencers_median_citation, social_media_influencers
Abstract: 인공지능 및 머신러닝 컨퍼런스에서 채택된 논문 수가 수천 편에 달하면서 연구자들이 연구 출판물에 어떻게 접근하고 읽는지 불분명해졌습니다. 이 백서에서는 머신러닝 연구의 가시성을 높이는 데 있어 소셜 미디어 인플루언서의 역할, 특히 그들이 공유하는 논문의 인용 횟수를 조사합니다. 2018년 12월부터 2023년 10월까지의 트윗과 출판 연도, 장소, 초록 주제에 따라 1:1로 매칭된 대조군과 함께 8,000개 이상의 논문으로 구성된 포괄적인 데이터 세트를 수집했습니다. 분석 결과, 이러한 인플루언서들이 지지하는 논문의 인용 횟수가 크게 증가했으며, 인용 횟수 중앙값이 대조군보다 2~3배 더 높은 것으로 나타났습니다. 또한, 이 연구는 주요 저자의 지리적, 성별, 기관별 다양성에 대해서도 자세히 살펴봅니다. 이러한 연구 결과는 학술 커뮤니케이션에서 소셜 미디어의 영향력이 확대되고 있음을 강조하고 오늘날의 디지털 학술 환경에서 진화하는 생태계의 중요성을 강조합니다. [abs|pdf]

[67/80] Assumptions and Bounds in the Instrumental Variable Model

Keywords: relating_instrumental_variable, instrumental_variable, instrumental_variable_iv
Abstract: 이 노트에서는 이항 반응 $Y$와 이항 처치 $X$를 사용하지만, $K$ 상태를 취하는 도구 $Z$를 사용하는 도구 변수(IV) 모델과 관련된 결과에 대한 증명을 제공하며, 이는 원래 Richardson & Robins (2014), "ACE Bounds; SEMS with Equilibrium Conditions", arXiv:1410.0470에서 언급된 내용입니다. [abs|pdf]

[68/80] A Systematic Approach to Robustness Modelling for Deep Convolutional Neural Networks

Keywords: aid_adversarial_robustness, adversarially_robust_models, adversarial_robustness_despite
Abstract: 컨볼루션 신경망은 레이블이 지정된 대량의 데이터를 사용할 수 있을 때 많은 분야에 광범위하게 적용할 수 있는 것으로 나타났습니다. 최근의 추세는 모델 정확도를 높이고, 모델 손실을 줄이거나, 서로 상충되는 목표인 보다 강력한 모델을 만들기 위해 점점 더 큰 규모의 조정 가능한 매개변수 세트를 가진 모델을 사용하는 것이었습니다. 특히, 최근의 이론적 연구는 더 큰 규모의 모델이 통제된 훈련 및 테스트 세트 외부의 데이터로 일반화할 수 있는 능력에 대한 의문을 제기하고 있습니다. 이에 따라 유니티는 MNIST, CIFAR10, CIFAR100 데이터 세트에서 ResNet 모델에서 숨겨진 레이어 수의 역할을 살펴봅니다. 모델의 크기, 부동 소수점 정밀도, 훈련 데이터와 모델 출력의 노이즈 수준 등 다양한 파라미터를 테스트합니다. 모델의 예측력과 계산 비용을 캡슐화하기 위해 유도된 실패를 사용하여 실패 확률을 시간의 함수로 모델링하고 이를 새로운 지표와 연관시켜 모델 학습 비용이 공격 비용보다 더 큰지 여부를 신속하게 판단할 수 있는 방법을 제공합니다. 이 접근 방식을 사용하면 점점 더 큰 규모의 벤치마크 데이터 세트가 아닌 소수의 특수 제작된 샘플을 사용하여 예상 실패율을 추정할 수 있습니다. 8비트, 16비트, 32비트, 64비트 부동소수점 숫자, 다양한 데이터 전처리 기법, ResNet 모델의 5가지 구성에 대한 여러 가지 공격을 사용하여 MNIST 및 CIFAR10 데이터 세트에서 이 기법의 효과를 입증합니다. 그런 다음 경험적 측정을 통해 비용, 견고성, 지연 시간, 신뢰성 간의 다양한 절충점을 검토하여 대규모 모델은 훈련 비용이 훨씬 더 많이 들지만 적대적 견고성에는 큰 도움이 되지 않는다는 사실을 발견했습니다. [abs|pdf]

[69/80] Proactive Emotion Tracker: AI-Driven Continuous Mood and Emotion Monitoring

Keywords: detect_depressive_text, early_detection_depression, detection_depression_advancing
Abstract: 이 연구 프로젝트는 오늘날 디지털 시대에 증가하는 정신 건강 문제를 해결하는 것을 목표로 합니다. 이 프로젝트는 사전 학습된 수정된 BERT 모델을 사용하여 소셜 미디어와 사용자의 웹 브라우징 데이터에서 우울한 텍스트를 감지하여 93%라는 놀라운 테스트 정확도를 달성합니다. 동시에 이 프로젝트는 스마트워치와 뇌파 센서와 같은 웨어러블 기기의 생리적 신호를 통합하여 기분 장애와 감정 상태를 장기적으로 추적하고 예후를 제공하는 것을 목표로 합니다. 이러한 포괄적인 접근 방식은 우울증의 조기 발견을 강화하고 전반적인 정신 건강 결과를 개선할 수 있는 가능성을 제시합니다. [abs|pdf]

[70/80] Can I trust my fake data -- A comprehensive quality assessment framework for synthetic tabular data in healthcare

Keywords: trust_synthetic_data, ai_tools_healthcare, trustworthy_ai_tools
Abstract: 의료 분야에서 AI 도구를 안전하게 도입하려면 훈련, 테스트 및 검증을 위한 충분한 데이터에 대한 액세스가 보장되어야 합니다. 개인정보 보호 문제와 규제 요건에 대응하기 위해 합성 데이터를 사용하는 것이 제안되었습니다. 합성 데이터는 실제 데이터로 생성기를 훈련시켜 유사한 통계적 속성을 가진 데이터 세트를 생성하는 방식으로 만들어집니다. 품질 평가를 위해 서로 다른 분류 체계를 가진 경쟁 지표가 제안되어 복잡한 환경이 조성되었습니다. 품질을 최적화하려면 데이터를 사용하기에 적합하게 만드는 고려 사항의 균형을 맞춰야 하지만, 관련 차원은 기존 프레임워크에서 제외되어 있습니다. 저희는 표 형식의 의료 데이터와 심층 생성 방법을 사용하여 만든 SD의 범위 내에서 SD의 품질 평가 메트릭 사용에 대한 포괄적인 문헌 검토를 수행했습니다. 이를 바탕으로 팀 전체의 경험을 종합하여 품질 보증을 위한 개념적 프레임워크를 개발했습니다. 적용 가능성은 네덜란드 국가 암 등록부의 실제 사례를 벤치마킹했습니다. 다양한 분류법을 조정하고, 공정성 및 탄소 발자국 차원을 포함하도록 공통 품질 차원을 확장하며, 실제 애플리케이션을 지원하는 데 필요한 단계를 제안하는 의료 분야 AI 애플리케이션용 SD의 품질 보증을 위한 개념적 프레임워크를 제시합니다. 투명성을 높이고 안전 위험을 줄임으로써 합성 데이터에 대한 신뢰를 구축하면 환자를 위한 신뢰할 수 있는 AI 도구의 개발과 활용이 가속화될 것입니다. 알고리즘의 공정성과 탄소 발자국에 대한 강조가 커지고 있음에도 불구하고, 이러한 지표는 문헌 검토에서 거의 다루어지지 않았습니다. 거리 메트릭을 사용한 통계적 유사성에 압도적인 초점이 맞춰져 있는 반면, 순차적 논리 탐지는 거의 다루지 않았습니다. 모든 관련 품질 차원을 포함하는 합의에 기반한 프레임워크는 안전하고 책임감 있는 SD의 실제 적용에 대한 보증을 제공할 수 있습니다. [abs|pdf]

[71/80] EMP: Effective Multidimensional Persistence for Graph Representation Learning

Keywords: manifold_learning_graph, multidimensional_persistence, topological_data
Abstract: 위상 데이터 분석(TDA)은 다양체 학습에서 그래프 분류에 이르는 광범위한 머신 러닝 작업에서 각광을 받고 있습니다. TDA의 핵심 기술은 지속적 상동성(PH)으로, 스케일 매개변수가 변화함에 따라 잠재 구조의 진화를 추적하여 데이터의 고유한 위상학적 각인을 제공합니다. 현재의 PH 도구는 단일 필터 매개변수를 통해 데이터를 분석하는 데 국한되어 있습니다. 그러나 데이터에 대한 보다 세밀한 인사이트를 얻기 위해서는 여러 관련 파라미터를 고려해야 하는 시나리오가 많습니다. 이 문제를 해결하기 위해 효과적인 다차원 지속성(EMP) 프레임워크를 도입했습니다. 이 프레임워크는 여러 척도 매개변수를 동시에 변경하여 데이터를 탐색할 수 있도록 지원합니다. 이 프레임워크는 설명자 함수를 분석 프로세스에 통합하여 표현력이 뛰어난 데이터 요약을 생성합니다. 이 프레임워크는 기존의 단일 PH 요약을 EMP 랜드스케이프, 실루엣, 이미지, 표면과 같은 다차원 요약으로 원활하게 통합합니다. 이러한 요약은 데이터의 다차원적 측면을 행렬과 배열로 표현하여 다양한 ML 모델과 효과적으로 연계됩니다. 유니티는 EMP 요약에 대한 이론적 보증과 안정성 증명을 제공합니다. 그래프 분류 작업에서 EMP의 유용성을 입증하여 그 효과를 보여줍니다. 그 결과, EMP는 다양한 단일 PH 설명자를 향상시켜 여러 벤치마크 데이터 세트에서 최첨단 방법보다 뛰어난 성능을 보였습니다. [abs|pdf]

[72/80] Accelerating hyperbolic t-SNE

Keywords: hyperbolic_embeddings_building, methods_embedding_hyperbolic, structure_hyperbolic_embeddings
Abstract: 계층적 또는 고차원 데이터의 구조를 이해해야 할 필요성은 다양한 분야에서 존재합니다. 쌍곡선 공간은 비선형적 특성으로 인해 트리 또는 그래프 데이터에 적합하기 때문에 계산 및 분석 작업을 내장하는 데 중요한 도구로 입증되었습니다. 그 후 쌍곡선 공간은 고차원 데이터의 시각화에도 사용되어 임베딩 성능이 향상되었습니다. 그러나 쌍곡선 공간에 임베딩하기 위한 기존의 차원 축소 방법은 입력 데이터의 크기에 따라 잘 확장되지 않습니다. 그 이유는 임베딩이 반복적인 최적화 체계를 통해 계산되고 모든 반복의 계산 비용이 입력 데이터의 크기에 따라 이차적으로 증가하기 때문입니다. 또한 쌍곡선 공간의 비선형적 특성으로 인해 유클리드 가속 구조는 쌍곡선 설정으로 직접 변환할 수 없습니다. 이 논문에서는 극좌표 쿼드트리를 기반으로 하는 쌍곡선 임베딩을 위한 최초의 가속 구조를 소개합니다. 이 접근 방식을 기존 방법과 비교하여 비슷한 품질의 임베딩을 훨씬 짧은 시간에 계산할 수 있음을 증명합니다. 실험을 위한 구현과 스크립트는 이 https URL에서 확인할 수 있습니다. [abs|pdf]

[73/80] Using Java Geometry Expert as Guide in the Preparations for Math Contests

Keywords: geometry_expert_jgex, java_geometry_expert, java_geometry
Abstract: 오스트리아의 학교 시스템을 중심으로 학교 현장에서 사용되고 있는 JGEX(Java Geometry Expert)에 대한 인사이트를 제공합니다. JGEX는 일부 수업 상황, 특히 수학 경시대회 과제 해결에 큰 도움을 줄 수 있습니다. 또한 이 프로그램의 몇 가지 한계에 대해서도 논의합니다. [abs|pdf]

[74/80] Solving Some Geometry Problems of the Náboj 2023 Contest with Automated Deduction in GeoGebra Discovery

Keywords: geogebra_discovery, geogebra_discovery_calculate, tool_geogebra_discovery
Abstract: 이 문서에서는 소프트웨어 도구인 GeoGebra Discovery로 계산할 수 있는 예제를 사용하여 컴퓨터의 도움으로 Náboj 2023 대회의 기하학 문제 중 일부를 해결합니다. 각각의 경우 계산에는 기호 계산이 필요합니다. 우리는 기계에 문제를 입력하는 난이도를 분석하고 향후 이러한 유형의 대회 문제를 더욱 쉽게 풀 수 있도록 추가 목표를 설정합니다. [abs|pdf]

[75/80] Towards Automated Readable Proofs of Ruler and Compass Constructions

Keywords: proofs_generated_constructions, construction_correctness_proofs, triangle_construction_solver
Abstract: 눈금자 및 나침반 구성 문제에 대한 구성 단계를 성공적으로 생성하는 여러 시스템이 있지만, 생성된 구성에 대해 판독 가능한 합성 정확성 증명을 제공하는 시스템은 없습니다. 본 연구에서는 삼각형 구성 솔버인 ArgoTriCS가 일차 논리 및 일관된 논리를 위한 자동화된 정리 증명기와 협력하여 사람이 읽을 수 있고 형식적인 구성 정확성 증명(Coq 또는 Isabelle/HOL과 같은 대화형 정리 증명기로 확인할 수 있음)을 생성하는 방법을 보여줍니다. 이러한 증명은 현재 많은 고수준의 레마에 의존하고 있으며, 우리의 목표는 기하학의 기본 공리에서 이 모든 것을 공식적으로 보여주는 것입니다. [abs|pdf]

[76/80] Generative AI-Driven Human Digital Twin in IoT-Healthcare: A Comprehensive Survey

Keywords: hdt_iot_healthcare, iot_healthcare, hdt_iot
Abstract: 사물인터넷(IoT)은 특히 의료 분야에서 인간의 삶의 질을 크게 향상시킬 수 있어 IoT-헬스케어 서비스에 대한 관심이 높아지고 있습니다. 한편, 휴먼 디지털 트윈(HDT)은 디지털 세계에서 개별 인체의 복제를 종합적으로 특성화하고 신체 상태를 실시간으로 반영할 수 있는 혁신적인 패러다임으로 제시되고 있습니다. 당연히 HDT는 다재다능하고 생생한 인체 디지털 테스트베드 역할을 수행하여 결과를 시뮬레이션하고 실제 치료법을 안내함으로써 의료 모니터링을 넘어 IoT-헬스케어를 강화할 수 있을 것으로 기대됩니다. 그러나 HDT를 성공적으로 구축하려면 충실도가 높은 가상 모델링과 강력한 정보 상호 작용이 필요하지만, 데이터가 부족하고 편향적이며 노이즈가 많을 수 있습니다. 다행히 최근 인기를 끌고 있는 생성적 인공 지능(GAI)이라는 기술은 고급 AI 알고리즘을 활용하여 가치 있고 다양한 데이터를 자동으로 생성, 조작, 수정할 수 있기 때문에 유망한 솔루션이 될 수 있습니다. 이 설문조사는 특히 IoT-헬스케어 분야에서 GAI 기반 HDT의 구현에 초점을 맞춥니다. 먼저 IoT-헬스케어의 배경과 GAI 기반 HDT의 잠재력을 소개합니다. 그런 다음 기본 기술을 살펴보고 GAI 기반 HDT의 전체 프레임워크를 제시합니다. 그 후 GAI를 활용한 데이터 수집, 통신, 데이터 관리, 디지털 모델링, 데이터 분석 등 GAI 기반 HDT의 구현에 대해 자세히 살펴봅니다. 또한 개인 맞춤형 건강 모니터링 및 진단, 개인 맞춤형 처방, 개인 맞춤형 재활 등 GAI 기반 HDT로 혁신할 수 있는 대표적인 IoT-헬스케어 애플리케이션에 대해 논의합니다. 마지막으로 몇 가지 향후 연구 방향을 제시하며 이번 설문조사를 마무리합니다. [abs|pdf]

[77/80] Toward Robust Multimodal Learning using Multimodal Foundational Models

Keywords: multimodal_sentiment_analysis, existing_multimodal_sentiment, approach_multimodal_sentiment
Abstract: 기존의 멀티모달 감성 분석 작업은 훈련 및 테스트 세트가 완전한 멀티모달 데이터라는 가정에 크게 의존하지만, 실제 시나리오에서는 멀티모달 데이터가 불완전한 경우가 많기 때문에 이러한 가정을 유지하기가 어려울 수 있습니다. 따라서 무작위로 누락된 모달리티가 있는 시나리오에서는 강력한 멀티모달 모델이 매우 선호됩니다. 최근 CLIP 기반 멀티모달 기본 모델은 이미지와 텍스트 쌍의 정렬된 교차 모달 시맨틱을 학습하여 수많은 멀티모달 작업에서 인상적인 성능을 입증했지만, 멀티모달 기본 모델은 모달이 없는 시나리오를 직접 처리하지 못합니다. 이 문제를 완화하기 위해 유니티는 간단하고 효과적인 프레임워크, 즉 멀티모달 기반 모델을 사용한 강력한 멀티모달 학습을 위한 TRML을 제안합니다. TRML은 누락된 모달리티를 대체하기 위해 생성된 가상 모달리티를 사용하고, 생성된 모달리티와 누락된 모달리티 사이의 의미 공간을 정렬합니다. 구체적으로, 누락된 양식 추론 모듈을 설계하여 가상 양식을 생성하고 누락된 양식을 대체합니다. 또한 생성된 의미 공간과 누락된 의미 공간을 정렬하기 위한 의미 일치 학습 모듈을 설계합니다. 완전한 모달리티의 프롬프트에서 우리 모델은 정렬된 교차 모달리티 의미 공간을 활용하여 누락된 모달리티의 의미를 포착합니다. 실험을 통해 세 가지 멀티모달 감성 분석 벤치마크 데이터 세트인 CMU-MOSI, CMU-MOSEI, MELD에 대한 접근 방식의 우수성을 입증했습니다. [abs|pdf]

[78/80] Challenge design roadmap

Keywords: ways_creating_challenge, competition_organizers_develop, creating_challenge
Abstract: 챌린지는 참가자들이 심각한 과제를 해결하도록 동기를 부여하는 일종의 게임으로 볼 수 있습니다. 따라서 대회 주최자는 효과적인 게임 규칙을 개발해야 합니다. 그러나 이러한 규칙에는 참가자들이 게임을 즐겁게 하는 것 외에도 여러 가지 목표가 있습니다. 이러한 목표에는 현실 세계의 문제 해결, 과학 또는 기술 분야 발전, 과학적 발견, 대중 교육 등이 포함될 수 있습니다. 여러 면에서 챌린지를 만드는 것은 제품을 출시하는 것과 비슷합니다. 동일한 수준의 흥미와 엄격한 테스트가 필요하며, '고객'이라는 형태의 참가자를 유치하는 것이 목표입니다. 이 과정은 결국 국제 컨퍼런스에 제출되어 동료 검토를 받게 될 대회 제안서와 같은 탄탄한 계획에서 시작됩니다. 동료 검토가 품질을 보장하는 것은 아니지만, 주최자는 대회의 영향을 고려하고 잠재적인 감독 사항을 파악하며 일반적으로 품질을 개선할 수 있습니다. 이 장에서는 강력한 챌린지 계획을 수립하기 위한 가이드라인을 제공합니다. 이 자료는 Kaggle 1 , ChaLearn 2, Tailor 3 등의 조직에서 제공하는 준비 지침과 일부 저자가 기여한 NeurIPS 제안서 템플릿을 바탕으로 작성되었습니다. [abs|pdf]

[79/80] Process Mining for Unstructured Data: Challenges and Research Directions

Keywords: process_mining_unstructured, data_process_mining, process_mining
Abstract: 비정형 데이터에 프로세스 마이닝을 적용하면 비정형 데이터가 일반적인 데이터 형식인 분야에서 새로운 인사이트를 크게 향상시킬 수 있습니다. 프로세스 마이닝을 통해 비정형 데이터를 효율적으로 분석하고 분석 결과에 대한 신뢰도를 높이려면 여러 가지 과제를 해결해야 합니다. 이 백서의 목적은 이러한 과제에 대해 논의하고, 초기 해결책을 제시하며, 향후 연구 방향을 설명하는 것입니다. 이 글이 향후 이 주제에 대한 협업을 위한 토대가 되기를 바랍니다. [abs|pdf]

[80/80] Transforming Agriculture with Intelligent Data Management and Insights

Keywords: agriculture_data_management, propose_agriculture_data, facto_data_management
Abstract: 현대 농업은 기후 변화와 천연자원의 감소라는 제약 속에서 인구 증가에 따른 식량, 연료, 사료, 섬유에 대한 수요 증가를 충족해야 하는 큰 도전에 직면해 있습니다. 농업 생태계의 생산성, 지속가능성, 복원력을 확보하고 개선하기 위해서는 데이터 혁신이 절실히 필요합니다. 다양한 센서와 사물인터넷(IoT) 기기의 가용성, 경제성, 신뢰성, 안정성이 향상됨에 따라 다양한 시간적, 공간적 규모에서 실시간으로 고해상도로 데이터를 수집, 통합, 분석하는 것이 가능해졌습니다. 동시에 데이터의 엄청난 양은 데이터 저장과 분석에 큰 도전이 되고 있으며, 과학자들이 채택하고 있는 사실상의 데이터 관리 및 분석 관행은 점점 더 비효율적이 되고 있습니다. 또한 유전체학, 현상학, 환경학, 농학, 사회경제학 등 다양한 분야에서 생성되는 데이터는 매우 이질적일 수 있습니다. 즉, 여러 분야의 데이터 세트가 동일한 온톨로지, 양식 또는 형식을 공유하지 않는 경우가 많습니다. 이 때문에 검색 가능, 접근 가능, 상호 운용 가능, 재사용 가능(FAIR)의 원칙을 구현하는 새로운 데이터 관리 인프라를 설계할 필요가 있습니다. 이 백서에서는 FAIR 원칙을 충족하는 농업 데이터 관리 및 분석(ADMA)을 제안합니다. 새로운 데이터 관리 인프라는 여러 분야에 걸친 시맨틱 데이터 관리를 지원하여 지능적이고, 웹 GUI, 명령줄, API 등 다양한 데이터 관리/분석 포털을 제공하여 대화형이며, 고성능 컴퓨팅(HPC)의 성능을 활용하여 확장 가능하고, 사용자가 자체 데이터 분석 도구를 로드할 수 있어 확장 가능하며, 각 파일의 다양한 작업을 추적하여 추적 가능하고, 성숙한 오픈 소스 기술을 풍부하게 사용하여 개방성을 갖췄습니다. [abs|pdf]

저작자표시 비영리 변경금지

'Paper Tale > Archive of arxiv' 카테고리의 다른 글

🍞 오늘의 AI 논문 [2024-01-30] (0)	2024.02.21
🍞 오늘의 AI 논문 [2024-01-29] (0)	2024.02.21
🍞 오늘의 AI 논문 [2024-01-25] (0)	2024.02.21
🍞 오늘의 AI 논문 [2024-01-24] (0)	2024.02.17
🍞 오늘의 AI 논문 [2024-01-23] (0)	2024.02.16

현재글🍞 오늘의 AI 논문 [2024-01-26]