프로필사진

Paper Tale/Archive of arxiv

🍞 오늘의 AI 논문 [2024-01-05]

다각 2024. 1. 5. 16:51

[1/35] ODIN: A Single Model for 2D and 3D Perception

Keywords: 3d_perception_benchmarks, 3d_point_cloud, sensed_3d
Abstract: 스캔넷과 같은 최신 3D 인식 벤치마크의 최첨단 모델은 감지된 멀티뷰 RGB-D 이미지의 후처리를 통해 얻은 데이터 세트가 제공하는 3D 포인트 클라우드를 사용하고 레이블을 지정합니다. 이러한 모델은 일반적으로 도메인 내에서 학습되며, 대규모 2D 사전 학습을 생략하고 대신 포지셔닝된 RGB-D 멀티뷰 이미지를 활용하는 대안보다 성능이 뛰어납니다. 포즈된 이미지를 사용하는 방법과 후처리된 3D 포인트 클라우드를 사용하는 방법 간의 성능 격차로 인해 2D와 3D 인식에는 서로 다른 모델 아키텍처가 필요하다는 믿음이 확산되었습니다. 이 백서에서는 이러한 관점에 도전하여 2D 뷰 내 정보 융합과 3D 크로스 뷰 정보 융합을 번갈아 사용하는 트랜스포머 아키텍처를 사용하여 2D RGB 이미지와 3D 포인트 클라우드를 모두 분할하고 레이블을 지정할 수 있는 모델인 ODIN(Omni-Dimensional INstance segmentation)을 제안합니다. 이 모델은 2D 패치 토큰의 경우 픽셀 좌표를, 3D 피처 토큰의 경우 3D 좌표를 캡처하는 토큰의 위치 인코딩을 통해 2D와 3D 피처 작업을 구분합니다. ODIN은 ScanNet200, Matterport3D 및 AI2THOR 3D 인스턴스 세분화 벤치마크에서 최첨단 성능을 달성하고 ScanNet, S3DIS 및 COCO에서 경쟁력 있는 성능을 발휘합니다. 3D 메쉬에서 샘플링한 포인트 클라우드 대신 감지된 3D 포인트 클라우드를 사용할 경우 이전의 모든 작업보다 큰 폭으로 성능이 향상됩니다. 지시 가능한 구현 에이전트 아키텍처에서 3D 인식 엔진으로 사용할 경우, TEACh 대화로부터의 액션 벤치마크에서 새로운 기준을 제시합니다. 코드와 체크포인트는 프로젝트 웹사이트(https URL)에서 확인할 수 있습니다. [abs|pdf]

[2/35] LLM Augmented LLMs: Expanding Capabilities through Composition

Keywords: augment_language_models, attention_models_compose, composition_augment_language
Abstract: 대규모 데이터 코퍼라를 통해 학습된 수십억 개의 파라미터가 포함된 기본 모델은 다양한 영역에서 사소하지 않은 기술을 입증해 왔습니다. 하지만 모놀리식 구조로 인해 이를 보강하거나 새로운 기술을 부여하는 것은 어렵고 비용이 많이 듭니다. 반면에 이러한 모델의 적응 능력으로 인해 새로운 영역과 작업을 위해 훈련된 새로운 모델들이 등장하고 있습니다. 본 연구에서는 기존의 기초 모델을 보다 구체적인 모델로 구성하여 새로운 기능을 구현할 수 있도록 효율적이고 실용적으로 구성하는 문제를 연구합니다. 이를 위해 우리는 모델 간 교차주의를 도입하여 표현을 구성하고 새로운 기능을 구현하는 CALM(Composition to Augment Language Models)을 제안합니다. CALM의 두드러진 특징은 다음과 같습니다: (i) 몇 가지 추가 매개변수 및 데이터와 함께 기존 LLM을 '재사용'하여 새로운 작업에서 LLM을 확장하고, (ii) 기존 모델 가중치를 그대로 유지하므로 기존 기능을 보존하며, (iii) 다양한 도메인과 설정에 적용할 수 있습니다. 저자원 언어에 대해 학습된 더 작은 모델로 PaLM2-S를 보강하면 저자원 언어에 대한 영어 번역 및 산술 추론과 같은 작업에서 최대 13%까지 절대적인 성능 향상을 가져올 수 있음을 보여줍니다. 마찬가지로 코드 전용 모델로 PaLM2-S를 보강하면 코드 생성 및 설명 작업에서 기본 모델에 비해 40%까지 상대적 성능이 향상되어 완전히 미세 조정된 모델과 대등한 수준으로 향상됩니다. [abs|pdf]

[3/35] What You See is What You GAN: Rendering Every Pixel for High-Fidelity Geometry in 3D GANs

Keywords: rendering_3d_gan, 3d_gans, 3d_gan_training
Abstract: 3D 인식 생성적 적대 신경망(GAN)은 신경 볼륨 렌더링을 통해 2D 이미지 모음에서 멀티뷰 일관 이미지와 장면의 3D 지오메트리를 생성하는 학습에서 괄목할 만한 발전을 보여왔습니다. 하지만 볼륨 렌더링에서 고밀도 샘플링에 드는 상당한 메모리와 연산 비용으로 인해 3D GAN은 패치 기반 학습을 채택하거나 후처리 2D 초고해상도의 저해상도 렌더링을 사용해야 했고, 이로 인해 멀티뷰 일관성과 해상도 지오메트리의 품질이 저하되었습니다. 따라서 3D GAN은 아직 2D 이미지에 존재하는 풍부한 3D 지오메트리를 완벽하게 해상할 수 없습니다. 이 연구에서는 신경 볼륨 렌더링을 네이티브 2D 이미지의 훨씬 더 높은 해상도로 확장하여 세밀한 3D 지오메트리를 전례 없는 디테일로 해상하는 기술을 제안합니다. 유니티의 접근 방식은 학습 기반 샘플러를 사용하여 최대 5배 적은 수의 깊이 샘플을 사용하여 3D GAN 훈련을 위한 뉴럴 렌더링을 가속화합니다. 이를 통해 2D에서 고해상도 후처리 없이도 훈련 및 추론 중에 전체 해상도 이미지의 모든 픽셀을 명시적으로 '렌더링'할 수 있습니다. 이 방법은 고품질 표면 지오메트리를 학습하는 전략과 함께 고해상도 3D 지오메트리와 엄격하게 보기 일관된 이미지를 합성하는 동시에 후처리 초고해상도에 의존하는 기준선과 동등한 수준의 이미지 품질을 유지합니다. 유니티는 FFHQ와 AFHQ에서 최첨단 3D 기하학적 품질을 입증하여 3D GAN에서 3D 형상의 비지도 학습을 위한 새로운 표준을 제시합니다. [abs|pdf]

[4/35] Real-Time 2D Temperature Field Prediction in Metal Additive Manufacturing Using Physics-Informed Neural Networks

Keywords: field_prediction_metal, prediction_metal_framework, temperature_field_prediction
Abstract: 금속 적층 제조(AM) 공정에서 온도 필드를 정확하게 예측하는 것은 과열을 방지하고 공정 파라미터를 조정하며 공정 안정성을 보장하는 데 매우 중요합니다. 물리학 기반 계산 모델은 정밀도를 제공하지만 시간이 많이 걸리고 반복적인 설계 시나리오에서 실시간 예측 및 온라인 제어에 적합하지 않은 경우가 많습니다. 반대로 머신러닝 모델은 고품질 데이터 세트에 크게 의존하는데, 이는 금속 적층 제조 영역에서 비용이 많이 들고 확보하기 어려울 수 있습니다. 유니티는 금속 적층 제조의 온도장 예측을 위해 특별히 설계된 물리 기반 신경망 프레임워크를 도입하여 이 문제를 해결했습니다. 이 프레임워크는 물리학 정보 입력, 물리학 정보 손실 함수, 컨볼루션 장단기 메모리(ConvLSTM) 아키텍처를 통합합니다. 이 모델은 공정의 실시간 온도 데이터를 활용하여 다양한 형상, 증착 패턴 및 공정 파라미터에 걸쳐 향후 타임스탬프에 대한 2D 온도 필드를 예측합니다. 얇은 벽에 대한 전체 필드 온도 예측과 실린더 및 입방체 부품에 대한 2D 온도 필드 예측이라는 두 가지 시나리오에서 제안된 프레임워크를 검증하여 각각 3%와 1% 미만의 오류를 입증했습니다. 제안된 프레임워크는 다양한 공정 파라미터, 형상 및 증착 패턴을 가진 다양한 시나리오에 적용할 수 있는 유연성을 보여줍니다. [abs|pdf]

[5/35] TinyLlama: An Open-Source Small Language Model

Keywords: architecture_tokenizer_llama, tokenizer_llama_tinyllama, pretrained_trillion_tokens
Abstract: 저희는 약 3년에 걸쳐 약 1조 개의 토큰으로 사전 학습된 11억 개의 컴팩트한 언어 모델인 타이니라마를 소개합니다. Llama 2의 아키텍처와 토큰화기를 기반으로 구축된 TinyLlama는 오픈소스 커뮤니티에서 기여한 다양한 발전(예: FlashAttention)을 활용하여 더 나은 계산 효율을 달성합니다. 상대적으로 작은 크기에도 불구하고 TinyLlama는 일련의 다운스트림 작업에서 놀라운 성능을 보여줍니다. 비슷한 크기의 기존 오픈 소스 언어 모델보다 훨씬 뛰어난 성능을 발휘합니다. 모델 체크포인트와 코드는 GitHub에서 이 https URL을 통해 공개적으로 사용할 수 있습니다. [abs|pdf]

[6/35] Survey of 3D Human Body Pose and Shape Estimation Methods for Contemporary Dance Applications

Keywords: pose_estimation_dancers, body_pose, human_body_pose
Abstract: rGB 이미지에서 3D 인체 형태와 포즈를 추정하는 것은 증강/가상 현실, 의료 및 피트니스 기술, 가상 소매업에 잠재적으로 적용될 수 있는 까다로운 문제입니다. 최근의 솔루션은 i) 단일 이미지, ii) 멀티뷰 이미지, iii) 비디오의 세 가지 입력 유형에 초점을 맞추고 있습니다. 이 연구에서는 현대 무용과 공연 예술을 위한 3D 체형 및 포즈 추정 방법을 조사하고 비교했으며, 특히 인체의 포즈와 의상, 카메라 시점, 조명 조건 및 배경 조건에 중점을 두었습니다. 그 결과, 무용수가 현대무용을 할 때 포즈를 추정할 때 PHALP와 같은 다중 프레임 방식이 단일 프레임 방식보다 더 나은 결과를 제공한다는 것을 입증했습니다. [abs|pdf]

[7/35] A Survey Analyzing Generalization in Deep Reinforcement Learning

Keywords: deep_neural_policies, deep_reinforcement_learning, deep_reinforcement
Abstract: 강화 학습 연구는 고차원 상태 또는 행동 공간에서 문제를 해결하기 위해 심층 신경망을 활용하면서 상당한 성공과 주목을 받았습니다. 심층 강화 학습 정책은 현재 의료 애플리케이션에서 자율주행차에 이르기까지 다양한 분야에 적용되고 있지만, 심층 강화 학습 정책의 일반화 능력에 대한 현장의 질문은 여전히 계속되고 있습니다. 이 백서에서는 심층 강화 학습 정책이 견고성과 일반화 기능을 제한하는 과적합 문제에 직면하는 근본적인 이유를 간략하게 설명합니다. 또한, 일반화를 높이고 상태-행동 가치 함수의 과적합을 극복하기 위한 다양한 솔루션 접근법을 공식화 및 통합할 것입니다. 본 연구는 현재 심층 강화 학습의 발전을 위한 간결하고 체계적인 통합 분석을 제공하고, 일반화 능력이 향상된 강력한 심층 신경 정책을 구축하는 데 도움이 될 수 있을 것으로 기대합니다. [abs|pdf]

[8/35] Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via Text-Only Training

Keywords: zero_shot_captioning, shot_captioning, shot_image_captioning
Abstract: 이미지 캡션은 이미지에 대한 설명적이고 의미 있는 텍스트 설명을 생성하여 광범위한 시각 언어 애플리케이션을 가능하게 하는 것을 목표로 합니다. 이전 연구에서는 대비 이미지 언어 사전 학습(CLIP)의 힘을 활용하면 값비싼 캡션 주석이 필요 없는 제로 샷 캡션을 달성할 수 있는 유망한 접근 방식이라는 것이 입증되었습니다. 그러나 CLIP의 잠재 공간에서 광범위하게 관찰되는 모달리티 갭은 쌍을 이루는 이미지-텍스트 특징 간의 정렬을 깨뜨려 제로 샷 캡션의 성능을 저하시킵니다. 이 문제를 해결하기 위해 CLIP 잠재 공간에 대한 분석을 수행하여 두 가지 결과를 도출했습니다. 첫째, 텍스트 설명에 내재된 정보 손실로 인해 CLIP의 이미지 하위 영역의 시각적 특징이 쌍을 이루는 캡션에 더 근접할 수 있음을 관찰했습니다. 또한 쌍을 이루는 이미지-텍스트 간의 양식 간극이 영평균 가우스 분포로 경험적으로 모델링될 수 있음을 보여줍니다. 이러한 연구 결과를 바탕으로 모달리티 갭을 줄이기 위해 텍스트만 학습하는 새로운 제로 샷 이미지 캡션 프레임워크를 제안합니다. 특히, 지역 정보를 활용하기 위해 하위 지역 특징 집계를 도입하여 텍스트 표현과 일치하는 간결한 시각적 표현을 생성합니다. 또한 노이즈 인젝션과 클립 재순위 지정 전략을 통합하여 캡션 성능을 향상시킵니다. 또한 프레임워크를 확장하여 제로 샷 VQA 파이프라인을 구축하여 그 범용성을 입증했습니다. MSCOCO, Flickr30k, VQAV2와 같은 일반적인 캡션 및 VQA 데이터 세트에 대한 광범위한 실험을 통해 우리의 방법이 놀라운 성능 향상을 달성한다는 것을 보여줍니다. 코드는 이 https URL에서 확인할 수 있습니다. [abs|pdf]

[9/35] Path-based Explanation for Knowledge Graph Completion

Keywords: knowledge_graph_completion, knowledge_graph, path_based_explanations
Abstract: 최근 몇 년 동안 그래프 신경망(GNN)은 개체와 관계가 상호 작용하는 방식을 모델링하여 지식 그래프 완성(KGC)에서 큰 성공을 거두었습니다. 그러나 예측된 사실에 대한 설명은 필요한 관심을 끌지 못했습니다. GNN 기반 KGC 모델의 결과에 대한 적절한 설명은 모델의 투명성을 높이고 연구자들이 보다 신뢰할 수 있는 모델을 개발하는 데 도움이 됩니다. KGC 작업을 설명하는 기존의 관행은 인스턴스/서브그래프 기반 접근 방식에 의존하지만, 일부 시나리오에서는 경로가 더 사용자 친화적이고 해석 가능한 설명을 제공할 수 있습니다. 그럼에도 불구하고, KG에 대한 경로 기반 설명을 생성하는 방법은 잘 연구되지 않았습니다. 이러한 격차를 해소하기 위해 저희는 GNN 기반 모델을 탐색하는 최초의 경로 기반 KGC 설명기인 Power-Link를 제안합니다. 우리는 완전히 병렬화 가능하고 메모리 효율적인 훈련 체계로 경로 기반 설명을 생성할 수 있는 새로운 단순화된 그래프 강화 기법을 설계합니다. 또한 설명의 정량적 평가를 위한 세 가지 새로운 메트릭과 정성적 인적 평가를 도입합니다. 광범위한 실험을 통해 Power-Link가 해석 가능성, 효율성, 확장성 측면에서 SOTA 기준선을 뛰어넘는다는 사실이 입증되었습니다. [abs|pdf]

[10/35] Uncertainty-Aware Deep Attention Recurrent Neural Network for Heterogeneous Time Series Imputation

Keywords: recurrent_network_imputation, attention_recurrent_imputation, recurrent_imputation
Abstract: 누락은 다변량 시계열에서 어디에나 존재하며 신뢰할 수 있는 다운스트림 분석에 장애물이 됩니다. 반복적인 네트워크 대입으로 SOTA를 달성했지만, 기존 모델은 복잡한 데이터에서 발생하는 문제를 잠재적으로 완화할 수 있는 심층 아키텍처로 확장되지 않습니다. 게다가 대입은 실측값에 대한 편향된 추정의 위험을 수반합니다. 그러나 대입된 값에 대한 신뢰도는 항상 측정되지 않거나 모델 출력에서 사후에 계산됩니다. 이 연구에서는 이질적인 다변량 시계열에서 결측치와 관련 불확실성을 공동으로 추정하는 심층 주의 반복 추정(DEARI)을 제안합니다. 특징별 상관관계와 시간적 역학을 공동으로 표현함으로써 효과적인 잔차 구성 요소와 함께 자기 주의 메커니즘을 채택하여 우수한 대입 성능과 안정적인 수렴을 갖춘 심층 순환 신경망을 달성합니다. 또한 자체 감독 메트릭 학습을 활용하여 샘플 유사성을 최적화함으로써 성능을 향상시킵니다. 마지막으로, 새로운 베이지안 한계화 전략을 통해 DEARI를 베이지안 신경망으로 변환하여 결정론적 신경망을 능가하는 확률론적 DEARI를 생성합니다. 실험 결과, DEARI는 대기질 관리, 의료, 교통 등 실제 데이터 세트를 사용한 다양한 대입 작업에서 SOTA를 능가하는 것으로 나타났습니다. [abs|pdf]

[11/35] Policy-regularized Offline Multi-objective Reinforcement Learning

Keywords: offline_policy_regularized, policy_regularized_offline, policy_regularized
Abstract: 본 논문에서는 오프라인 궤적 데이터만을 활용하여 다중 목표 RL을 위한 정책을 훈련하는 것을 목표로 합니다. 위의 목표를 달성하기 위해 단일 목표 오프라인 RL 문제에 널리 사용되는 오프라인 정책 규칙화 방법을 다중 목표 설정으로 확장합니다. 그러나 이러한 방법은 오프라인 MORL 설정에서 선호도 불일치 실증 문제라는 새로운 도전에 직면합니다. 우리는 이 문제에 대한 두 가지 해결책을 제안합니다: 1) 행동 선호도 근사치를 통해 선호도가 일치하지 않는 데모를 필터링하고, 2) 정책 표현력이 높은 정규화 기법을 채택하는 것입니다. 또한, 선호도 조건부 스칼라화 업데이트 방법을 정책 정규화 오프라인 RL에 통합하여 단일 정책 네트워크를 사용하여 정책 집합을 동시에 학습함으로써 다양한 선호도에 대해 많은 수의 개별 정책을 학습할 때 발생하는 계산 비용을 줄입니다. 마지막으로 정규화 가중치 적응을 도입하여 배포 중에 임의의 대상 선호도에 대해 적절한 정규화 가중치를 동적으로 결정합니다. 다양한 다목적 데이터 세트에 대한 경험적 결과는 오프라인 MORL 문제를 해결하는 데 있어 이 접근법의 역량을 보여줍니다. [abs|pdf]

[12/35] Joint Multi-Facts Reasoning Network For Complex Temporal Question Answering Over Knowledge Graph

Keywords: temporal_knowledge_graph, existing_temporal_knowledge, reasoning_multiple_temporal
Abstract: 시간적 지식 그래프(TKG)는 일반 지식 그래프에 시간 범위를 추가하여 확장한 것입니다. 기존의 시간적 지식 그래프 질문 답변(TKGQA) 모델은 각 질문에 명시적/묵시적 시간적 제약이 있는 하나의 시간적 사실만 포함한다고 가정하기 때문에 단순한 질문에만 접근합니다. 따라서 여러 개의 시간적 사실을 포함하는 질문에서는 성능이 떨어집니다. 본 논문에서는 여러 개의 시간적 사실을 공동으로 추론하여 복잡한 시간적 질문에 정확하게 답할 수 있는 Joint Multi Facts Reasoning Network(JMFRN)를 제안하고자 합니다. 구체적으로, JMFRN은 먼저 주어진 복합 질문의 각 엔티티에 대해 질문과 관련된 시간적 사실을 TKG에서 검색합니다. 공동 추론을 위해 보편적인 환경에 적합한 두 가지 주의(엔티티 인식 및 시간 인식) 모듈을 설계하여 검색된 사실의 엔티티와 타임스탬프 정보를 취합합니다. 또한 오답 유형을 필터링하기 위해 추가적인 정답 유형 판별 작업을 도입합니다. 광범위한 실험을 통해 우리가 제안한 방법이 잘 알려진 복잡한 시간적 질문 벤치마크인 TimeQuestions에서 최신 기술을 훨씬 능가하는 것으로 입증되었습니다. [abs|pdf]

[13/35] LADRI: LeArning-based Dynamic Risk Indicator in Automated Driving System

Keywords: dynamic_risk_assessment, safer_informed_autonomous, evolution_automated_driving
Abstract: 자율 주행 시스템(ADS)의 발전으로 지능형 교통수단의 지평이 넓어지면서 가장 중요한 안전을 보장하는 것이 그 어느 때보다 중요해지고 있습니다. 주로 사람이 운전하는 차량을 위해 만들어진 기존의 위험 평가 방법론은 다각도로 진화하는 ADS 환경에 적절히 적응하는 데 어려움을 겪고 있습니다. 이 백서에서는 인공 신경망(ANN)의 잠재력을 활용하여 ADS에서 실시간 동적 위험 평가(DRA)를 위한 프레임워크를 소개합니다.
우리가 제안하는 솔루션은 이러한 한계를 뛰어넘어 딥러닝의 초석인 ANN을 활용하여 실시간 온보드 센서(OBS) 데이터를 사용하여 위험 차원을 세심하게 분석하고 분류합니다. 이러한 학습 중심 접근 방식은 ADS의 상황 인식을 향상시킬 뿐만 아니라 즉각적인 운영 상황에 대한 이해를 강화합니다. OBS 데이터를 분석함으로써 시스템은 현재의 위험 프로필을 정확히 파악하여 기내 승객과 더 넓은 교통 생태계의 안전 전망을 개선할 수 있습니다.
이 프레임워크를 통해 위험 평가의 방향을 제시하여 기존의 공백을 메우고 ADS의 숙련도를 향상시킵니다. 크리테오의 방법론은 ANN을 활용하여 ADS가 잠재적 위험 요소를 능숙하게 탐색하고 이에 대응할 수 있는 관점을 제공함으로써 보다 안전하고 정보에 입각한 자율 주행을 보장합니다. [abs|pdf]

[14/35] FairGridSearch: A Framework to Compare Fairness-Enhancing Models

Keywords: fairness_machine_learning, fairness_enhancing_models, model_fairness_results
Abstract: 머신러닝 모델은 중요한 의사 결정 애플리케이션에서 점점 더 많이 사용되고 있습니다. 그러나 이러한 모델은 실제 데이터에 존재하는 편향을 복제하거나 심지어 증폭시킬 수 있습니다. 문헌에는 다양한 편향성 완화 방법과 기본 추정치가 있지만, 특정 애플리케이션에 가장 적합한 모델을 선택하는 것은 여전히 어려운 일입니다.
이 백서에서는 이진 분류에 초점을 맞추고 공정성 향상 모델을 비교하기 위한 새로운 프레임워크인 FairGridSearch를 제안합니다. 페어그리드서치는 다양한 모델 매개변수 조합을 실험하고 최적의 모델을 추천합니다. 이 연구는 세 가지 인기 있는 데이터 세트(Adult, COMPAS, German Credit)에 FairGridSearch를 적용하여 메트릭 선택, 기본 추정자 선택, 분류 임계값이 모델 공정성에 미치는 영향을 분석합니다.
이 결과는 모델 평가를 위한 적절한 정확도 및 공정성 메트릭 선택의 중요성을 강조합니다. 또한 서로 다른 기준 추정자와 분류 임계값이 각각 편향성 완화 방법의 효과와 공정성 안정성에 영향을 미치지만, 그 효과는 모든 데이터 세트에서 일관되게 나타나지는 않습니다. 이러한 결과를 바탕으로 머신러닝의 공정성에 대한 향후 연구에서는 편향성 완화 방법만을 고려하는 것을 넘어 공정한 모델을 구축할 때 더 광범위한 요소를 고려해야 합니다. [abs|pdf]

[15/35] Prompt Decoupling for Text-to-Image Person Re-identification

Keywords: domain_adaptation_task, simultaneous_domain_adaptation, domain_adaptation
Abstract: 텍스트-대-이미지 사람 재식별(TIReID)은 텍스트 설명 쿼리를 통해 이미지 갤러리에서 대상 인물을 검색하는 것을 목표로 합니다. 최근 CLIP과 같은 사전 학습된 시각 언어 모델은 의미론적 개념 학습에 대한 강력한 능력과 풍부한 멀티모달 지식으로 인해 큰 주목을 받고 있으며 이 작업에 널리 활용되고 있습니다. 그러나 최근의 CLIP 기반 TIReID 방법은 일반적으로 전체 네트워크를 직접 미세 조정하여 CLIP 모델을 TIReID 작업에 맞게 조정하는 데 의존합니다. 이러한 방법은 이 주제에 대해 경쟁력 있는 성능을 보여주지만, 도메인 적응과 작업 적응을 동시에 수행해야 하기 때문에 차선책입니다. 이 문제를 해결하기 위해 훈련 단계에서 이 두 프로세스를 분리하려고 시도합니다. 구체적으로, 도메인 적응을 활성화하기 위해 프롬프트 튜닝 전략을 도입하고 도메인 적응과 과제 적응을 분리하는 2단계 훈련 접근법을 제안합니다. 첫 번째 단계에서는 CLIP에서 두 개의 인코더를 고정하고 프롬프트를 최적화하는 데만 집중하여 CLIP의 원본 훈련 데이터와 다운스트림 작업 간의 도메인 갭을 완화합니다. 두 번째 단계에서는 고정 프롬프트를 유지하면서 세분화된 정보를 캡처하는 데 우선순위를 두도록 CLIP 모델을 미세 조정하여 TIReID 작업에 더 적합하도록 합니다. 마지막으로, 널리 사용되는 세 가지 데이터 세트에 대해 이 방법의 효과를 평가합니다. 직접 미세 조정한 접근 방식과 비교했을 때, 우리의 방법은 상당한 개선을 달성했습니다. [abs|pdf]

[16/35] Shayona@SMM4H23: COVID-19 Self diagnosis classification using BERT and LightGBM models

Keywords: tweets_self_reporting, reporting_social_anxiety, classification_english_tweets
Abstract: 이 백서에서는 Shayona 팀이 수행한 SMMH4-23의 공유 과제 1과 4에 대한 접근 방식과 결과를 설명합니다. 공유 과제 1은 코로나19 진단을 자가 보고하는 영어 트윗을 2진법으로 분류하는 것이었고, 공유 과제 4는 사회 불안 장애 진단을 자가 보고하는 영어 Reddit 게시물을 2진법으로 분류하는 것이었습니다. 우리 팀은 과제-1에서 전체 참가자 중 가장 높은 F1 점수인 0.94점을 획득했습니다. 우리는 두 과제 모두에 트랜스포머 모델(BERT)과 LightGBM 모델을 함께 활용했습니다. [abs|pdf]

[17/35] Disentangle Estimation of Causal Effects from Cross-Silo Data

Keywords: estimating_causal_effects, estimating_causal, causal_effect_estimation
Abstract: 신약 개발과 같은 중요한 분야에서는 서로 다른 이벤트 간의 인과 관계를 추정하는 것이 매우 중요합니다. 그럼에도 불구하고 이벤트와 관련된 데이터 특징은 여러 사일로에 분산되어 있고 각 당사자 내에서 비공개로 유지되어 당사자 간의 직접적인 정보 교환을 방해할 수 있습니다. 이로 인해 일부 공변량의 특성에만 의존하는 편향된 국지적 인과관계 추정 결과가 나올 수 있습니다. 이러한 문제를 해결하기 위해 크리테오는 공유 브랜치와 프라이빗 브랜치의 조합을 통해 인과 메커니즘이 강화된 모델 파라미터를 원활하게 교차 전송할 수 있도록 설계된 혁신적인 연결 해제 아키텍처를 도입했습니다. 또한 방정식에 글로벌 제약 조건을 도입하여 누락된 다양한 도메인 내의 편향을 효과적으로 완화함으로써 인과관계 추정 정확도를 높였습니다. 새로운 반합성 데이터 세트에 대한 광범위한 실험을 통해 이 방법이 최첨단 기준선보다 뛰어난 성능을 발휘한다는 것을 확인할 수 있었습니다. [abs|pdf]

[18/35] Unit Testing in ASP Revisited: Language and Test-Driven Development Environment

Keywords: test_specification_language, testing_specification_language, testing_specification
Abstract: 오늘날 단위 테스트 프레임워크는 올바른 사양을 신속하게 개발하기 위해 거의 모든 최신 소프트웨어 개발 프로세스에 포함되는 모범 사례로 간주됩니다. 산업 수준의 애플리케이션에서 사용되어 온 답변 집합 프로그래밍(ASP)과 같은 지식 표현 및 추론 패러다임도 예외는 아닙니다. 실제로 ASP를 위한 최초의 단위 테스트 사양 언어는 2011년에 ASPIDE 개발 환경의 기능으로 제안되었습니다. 이후 보다 이식성이 뛰어난 단위 테스트 언어가 LANA 어노테이션 언어에 포함되었습니다. 이 백서에서는 ASP의 단위 테스트를 위한 언어와 도구를 모두 다시 살펴봅니다. ASP 프로그램 내에서 테스트를 인라인화할 수 있는 새로운 단위 테스트 사양 언어를 제안하고, 다양한 프로그램 정확성 어설션 확인과 관련된 작업의 계산적 복잡성을 파악합니다. 테스트 사례 사양은 기존 평가에는 투명하지만 특정 테스트 도구에 의해 해석될 수 있습니다. 따라서 테스트 중심의 ASP 프로그램 개발을 지원하는 새로운 환경을 제시합니다. [abs|pdf]

[19/35] Graph Neural Networks for Tabular Data Learning: A Survey with Taxonomy and Directions

Keywords: deep_neural_tdl, representation_learning_gnn, gnn_based_tdl
Abstract: 이번 설문조사에서는 딥러닝 기반 접근 방식이 기존 방식에 비해 분류 및 회귀 작업에서 점점 더 우수한 성능을 보이고 있는 분야인 그래프 신경망(GNN)을 사용한 테이블형 데이터 학습(TDL)에 대해 자세히 살펴봅니다. 이 설문조사는 딥 뉴럴 TDL 방법에서 데이터 인스턴스와 특징값 사이의 잠재적 상관관계를 제대로 표현하지 못한다는 중요한 격차를 강조합니다. 표 형식 데이터의 다양한 요소 간의 복잡한 관계와 상호 작용을 모델링할 수 있는 타고난 능력을 갖춘 GNN은 다양한 TDL 영역에서 상당한 관심과 적용을 받고 있습니다. 이번 설문조사는 TDL용 GNN(GNN4TDL)의 설계 및 구현과 관련된 방법에 대한 체계적인 검토를 제공합니다. 이 조사는 기초적인 측면에 대한 상세한 조사와 GNN 기반 TDL 방법의 개요를 포함하여 진화하는 환경에 대한 인사이트를 제공합니다. 또한, GNN 기반 TDL 방법에서 그래프 구조와 표현 학습을 구성하는 데 중점을 둔 포괄적인 분류법을 제시합니다. 또한 인스턴스 표현의 효율성을 높이기 위한 보조 작업의 통합을 강조하면서 다양한 훈련 계획을 살펴봅니다. 논의의 중요한 부분은 다양한 GNN4TDL 시나리오에서 GNN을 실제로 적용하여 그 다양성과 영향력을 입증하는 것입니다. 마지막으로 한계점에 대해 논의하고 향후 연구 방향을 제안하여 GNN4TDL의 발전을 촉진하고자 합니다. 이 설문조사는 연구자와 실무자를 위한 리소스로서 TDL 혁신에 있어 GNN의 역할에 대한 철저한 이해를 돕고 이 유망한 분야의 미래 혁신에 대한 방향을 제시합니다. [abs|pdf]

[20/35] SyCoCa: Symmetrizing Contrastive Captioners with Attentive Masking for Multimodal Alignment

Keywords: symmetrizing_contrastive_captioners, multimodal_alignment_language, contrastive_captioners
Abstract: 언어와 시각의 다중 모드 정렬은 현재 시각-언어 모델 연구의 기본 주제입니다. 대표적인 방법인 콘트라스트 캡션(CoCa)은 콘트라스트 언어-이미지 사전 훈련(CLIP)과 이미지 캡션(IC)을 통합된 프레임워크에 통합하여 인상적인 결과를 도출합니다. CLIP은 전체 이미지와 문장의 글로벌 표현에 양방향 제약을 부과합니다. IC는 로컬 표현에서 단방향 이미지-텍스트 생성을 수행하지만, 로컬 텍스트-이미지 재구성에 대한 제약이 없기 때문에 텍스트와 정렬할 때 이미지를 세분화된 수준으로 이해하는 데 한계가 있습니다. 이 백서에서는 글로벌 및 로컬 관점에서 멀티모달 정렬을 달성하기 위해 글로벌 및 로컬 표현 수준에서 이미지와 텍스트에 양방향 상호 작용을 도입하는 대칭적 대비 캡션(SyCoCa)을 제안합니다. 특히 ITC 및 IC 헤드에 기반한 텍스트 가이드 마스크 이미지 모델링(TG-MIM) 헤드를 확장합니다. 개선된 SyCoCa는 텍스트 단서를 활용하여 문맥 이미지와 시각적 단서를 재구성하여 텍스트 콘텐츠를 예측할 수 있습니다. 양방향 로컬 인터랙션을 구현할 때 이미지의 로컬 콘텐츠는 복잡하거나 텍스트 설명과 관련이 없는 경우가 많습니다. 따라서 상호작용을 위한 효과적인 이미지 패치를 선택하기 위해 세심한 마스킹 전략을 사용합니다. 이미지-텍스트 검색, 이미지 캡션, 시각적 질문에 대한 답변, 제로 샷/파인튜닝 이미지 분류 등 5가지 시각 언어 작업에 대한 광범위한 실험을 통해 제안된 방법의 효과를 검증했습니다. [abs|pdf]

[21/35] DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and Improvement of Large Language Models

Keywords: paragraph_comparison_generated, paragraph_comparisons_evaluated, sentence_paragraph_comparisons
Abstract: 대규모 언어 모델(LLM)로 생성된 텍스트의 품질과 가변성을 평가하는 것은 중요하지만 아직 해결되지 않은 연구 과제입니다. 토큰 유사성을 측정하는 ROUGE 및 BERTScore와 같은 기존의 평가 방법은 전체적인 의미적 동등성을 포착하지 못하는 경우가 많습니다. 이는 인간의 판단 및 직관과의 낮은 상관관계를 초래하며, 특히 신뢰성, 안전성, 강력한 의사 결정이 매우 중요한 의료 및 금융과 같은 고위험 애플리케이션에서 문제가 됩니다. 이 연구에서는 분할-정복-추론 접근법을 사용하여 LLM으로 생성된 텍스트의 일관성을 평가하고 개선하기 위한 자동화된 프레임워크인 DCR을 제안합니다. 문단 수준에서 작동하는 기존의 LLM 기반 평가기와 달리, 이 방법은 생성된 두 응답 간의 문단 간 비교를 미리 정의된 기준에 따라 각각 평가되는 개별 문장 간 비교로 세분화하는 분할-정복 평가기(DCE)를 사용합니다. 이러한 접근 방식을 용이하게 하기 위해 자동 메트릭 변환기(AMC)를 도입하여 DCE의 출력을 해석 가능한 수치 점수로 변환합니다. 또한 일관성 평가 외에도 DCE에서 식별한 설명과 함께 분석적 이유를 활용하여 이러한 불일치를 줄이기 위한 새로운 응답을 생성하는 이유 지원 개선 기능(RAI)을 제시합니다. 포괄적이고 체계적인 실증 분석을 통해 의미론적, 사실적, 요약 일관성 작업에서 여러 벤치마크에 걸쳐 LLM 생성의 일관성을 평가하는 데 있어 당사의 접근 방식이 최신 방법보다 큰 차이(예: SummEval 데이터 세트에서 +19.3% 및 +24.3%)로 우수한 성능을 보임을 보여주었습니다. 또한 이러한 접근 방식은 90%에 가까운 출력 불일치를 크게 줄여 효과적인 환각 완화 가능성을 보여주었습니다. [abs|pdf]

[22/35] ACP-ESM: A novel framework for classification of anticancer peptides using protein-oriented transformer approach

Keywords: identify_anticancer_peptides, anticancer_peptides_performing, anticancer_peptides
Abstract: 항암 펩타이드(ACP)는 암 연구 및 치료 분야에서 큰 주목을 받고 있는 분자의 한 종류입니다. ACP는 단백질의 구성 요소인 아미노산의 짧은 사슬이며, 암세포를 선택적으로 표적화하여 죽일 수 있는 능력을 지니고 있습니다. ACP의 주요 장점 중 하나는 암세포를 선택적으로 표적으로 삼으면서 건강한 세포는 더 많이 살릴 수 있다는 점입니다. 이러한 선택성은 정상 세포와 비교하여 암세포의 표면 특성이 다르기 때문인 경우가 많습니다. 이것이 바로 ACP가 암 치료의 잠재적 후보로 연구되고 있는 이유입니다. ACP는 단독으로 사용하거나 화학 요법 및 방사선 요법과 같은 다른 치료 방식과 함께 사용할 수 있습니다. ACP는 암 치료에 대한 새로운 접근법으로서 가능성을 가지고 있지만, 안정성 최적화, 선택성 개선, 암세포로의 전달력 향상, 펩타이드 서열의 지속적인 증가, 신뢰할 수 있고 정확한 예측 모델 개발 등 극복해야 할 과제가 있습니다. 본 연구에서는 신뢰성 있고 정확한 예측 모델을 수행하여 항암 펩타이드를 식별할 수 있는 효율적인 트랜스포머 기반 프레임워크를 제안합니다. 이를 위해 아미노산 서열에서 항암 펩타이드를 검출하기 위해 ESM, ProtBert, BioBERT, SciBERT의 네 가지 트랜스포머 모델을 사용했습니다. 제안된 프레임워크의 기여도를 입증하기 위해 문헌에서 널리 사용되는 두 가지 버전의 AntiCp2, cACP-DeepGram, ACP-740 데이터 세트에 대해 광범위한 실험을 수행했습니다. 실험 결과, 제안된 모델을 사용하면 최첨단 연구와 비교했을 때 분류 정확도가 향상되는 것으로 나타났습니다. 제안된 프레임워크인 ESM은 AntiCp2 데이터 세트에 대해 96.45의 정확도, cACP-DeepGram 데이터 세트에 대해 97.66의 정확도, ACP-740 데이터 세트에 대해 88.51의 정확도를 보여 새로운 최첨단 모델임을 확인했습니다. [abs|pdf]

[23/35] Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation

Keywords: mobile_manipulation_tasks, teleoperation_data_collection, learning_human_demonstrations
Abstract: 인간의 시연을 통한 모방 학습은 로봇 공학 분야에서 인상적인 성과를 보여주었습니다. 그러나 대부분의 결과는 탁상용 조작에 초점을 맞춘 것으로, 일반적으로 유용한 작업에 필요한 이동성과 손재주가 부족합니다. 이 연구에서는 양손 조작과 전신 제어가 필요한 모바일 조작 작업을 모방하기 위한 시스템을 개발합니다. 먼저 데이터 수집을 위한 저비용 전신 원격 조작 시스템인 모바일 알로하를 소개합니다. 이 시스템은 모바일 베이스와 전신 원격 조작 인터페이스로 ALOHA 시스템을 보강합니다. 모바일 ALOHA로 수집한 데이터를 사용하여 감독된 행동 복제를 수행하고 기존의 정적 ALOHA 데이터 세트와의 공동 훈련이 모바일 조작 작업의 성능을 향상시킨다는 사실을 발견했습니다. 각 작업에 대한 50개의 데모를 통해 공동 학습은 성공률을 최대 90%까지 높일 수 있으며, 이를 통해 Mobile ALOHA는 새우를 볶아 서빙하기, 무거운 요리 냄비를 보관하기 위해 2도어 벽 캐비닛 열기, 엘리베이터 호출 및 탑승하기, 주방 수도꼭지를 사용하여 사용한 팬을 가볍게 헹구는 등의 복잡한 모바일 조작 작업을 자율적으로 완료할 수 있습니다. 프로젝트 웹사이트: 이 https URL [abs|pdf]

[24/35] k-Winners-Take-All Ensemble Neural Network

Keywords: ensemble_neural_networks, ensemble_neural, kwta_ensemble_neural
Abstract: 앙상블은 일반적으로 개별 출력을 평균화하거나 합산하는 방식으로 여러 개의 독립적인 신경망을 결합하여 신경망의 성능을 향상시키는 한 가지 접근 방식입니다. 유니티는 이 앙상블 방식을 수정하여 하위 네트워크를 독립적으로 훈련하는 대신 동시에 훈련합니다. 이렇게 하위 네트워크를 동시에 훈련하면 서로 협력하게 되는데, 이를 "협력적 앙상블"이라고 부릅니다. 한편, 전문가 혼합 접근법은 주어진 데이터 세트를 하위 네트워크로 나누어 신경망의 성능을 향상시킵니다. 그런 다음 "전문가"라고 불리는 각 하위 네트워크에 전문성을 할당하는 게이팅 네트워크를 사용합니다. 앞서 언급한 신경망 그룹을 결합하는 방법을 개선하여 앙상블에서 각 하위 네트워크의 출력에 대한 결합 방법 역할을 하는 kWTA(k-Winners-Take-All) 활성화 함수를 사용합니다. 이 제안된 모델을 "kWTA 앙상블 신경망"(kWTA-ENN)이라고 부릅니다. KWTA 활성화 함수를 사용하면 하위 네트워크의 손실 뉴런은 억제되고 승리 뉴런은 유지됩니다. 그 결과 하위 네트워크는 어떤 형태로든 전문성을 가지면서도 서로 지식을 공유하게 됩니다. 100개의 뉴런으로 구성된 하나의 숨겨진 계층을 하위 네트워크 아키텍처로 사용하는 피드 포워드 신경망을 사용한 협력적 앙상블 및 전문가 혼합 방식과 우리의 접근 방식을 비교해 보았습니다. 우리의 접근 방식은 벤치마크 데이터 세트에서 98.34%, 패션-MNIST에서 88.06%, KMNIST에서 91.56%, WDBC에서 95.97%의 테스트 정확도를 달성하며 기준 모델에 비해 더 나은 성능을 보였습니다. [abs|pdf]

[25/35] An Example of Evolutionary Computation + Large Language Model Beating Human: Design of Efficient Guided Local Search

Keywords: novel_algorithm_evolution, guided_local_search, tsp100_000_iterations
Abstract: 인간 전문가가 효율적인 알고리즘을 설계하는 것은 매우 지루한 작업일 때가 많습니다. 최근 저희는 자동 알고리즘 설계를 위해 대규모 언어 모델을 이용한 알고리즘 진화(AEL) 프레임워크를 새롭게 제안했습니다. AEL은 대규모 언어 모델의 힘과 진화 계산의 패러다임을 결합하여 알고리즘을 자동으로 설계, 결합 및 수정합니다. 이 백서에서는 잘 알려진 여행 세일즈맨 문제(TSP)를 해결하기 위한 가이드 로컬 검색(GLS)의 가이드 알고리즘을 설계하는 데 AEL을 사용합니다. AEL은 최소한의 인력 투입과 모델 훈련 없이도 이틀 만에 엘리트 GLS 알고리즘을 자동으로 진화시킵니다. 1,000개의 TSP20-TSP100 인스턴스 및 TSPLib 인스턴스에 대한 실험 결과에 따르면 AEL로 설계된 GLS는 동일한 반복 예산으로 사람이 설계한 최첨단 GLS보다 성능이 뛰어납니다. 1,000회 반복에서 TSP20과 TSP50에서는 0%의 격차를, TSP100에서는 0.032%의 격차를 달성했습니다. 이번 연구 결과는 자동 알고리즘 설계의 새로운 시대가 열렸음을 의미합니다. [abs|pdf]

[26/35] Self-Contrast: Better Reflection Through Inconsistent Solving Perspectives

Keywords: self_evaluated_feedback, extensive_attention, evaluated_external_feedback
Abstract: 대규모 언어 모델(LLM)의 반영 능력은 광범위한 관심을 받고 있습니다. 사후 프롬프트 전략(예: 반성 및 자기 수정)은 자체 평가 또는 외부 피드백을 기반으로 LLM의 응답을 개선합니다. 그러나 최근 연구에 따르면 외부 피드백이 없으면 LLM의 내재적 성찰이 불안정하다고 합니다. 조사 결과, 핵심적인 병목 현상은 자체 평가 피드백의 품질에 있다는 사실이 밝혀졌습니다. LLM은 종종 자기평가를 할 때 과신하거나 높은 무작위성을 보이며, 고집스럽거나 일관되지 않은 피드백을 제공하여 반영이 제대로 이루어지지 않는 것으로 나타났습니다. 이를 개선하기 위해 우리는 자기 대비를 옹호합니다: 이 방법은 요청에 맞는 다양한 해결 관점을 적응적으로 탐색하고, 그 차이를 대조하며, 이러한 차이를 체크리스트에 요약하여 불일치를 재검토하고 제거하는 데 사용할 수 있습니다. 이 방법은 LLM에게 다양한 관점을 부여하여 고집스러운 편견을 완화합니다. 또한, 이러한 불일치는 잠재적 오류나 내재적 불확실성을 나타내며, 이는 LLM이 종종 간과하는 부분입니다. 이를 반영하면 보다 정확하고 안정적인 성찰을 촉진할 수 있습니다. 다양한 LLM을 사용하여 일련의 추론 및 번역 작업을 수행한 실험은 이러한 전략의 효과와 일반성을 강조하는 데 도움이 됩니다. [abs|pdf]

[27/35] On Time-Indexing as Inductive Bias in Deep RL for Sequential Manipulation Tasks

Keywords: learning_required_manipulation, manipulation_tasks_specifically, complex_manipulation_tasks
Abstract: 복잡한 조작 작업을 해결하는 동안 조작 정책은 종종 이러한 작업을 수행하기 위해 다양한 기술을 학습해야 합니다. 이러한 기술 집합은 종종 상당히 복합적인데, 각 기술마다 동작과 상태의 분포가 상당히 다를 수 있습니다. 표준 심층 정책 학습 알고리즘은 정책을 단일 출력 헤드(결정론적 또는 확률론적)를 가진 심층 신경망으로 모델링하는 경우가 많습니다. 이 구조에서는 네트워크가 내부적으로 모드 간 전환을 학습해야 하므로 샘플 효율성이 떨어지고 성능이 저하될 수 있습니다. 이 백서에서는 수많은 조작 작업에 필요한 기술 학습에 도움이 되는 간단한 구조를 살펴봅니다. 특히, 다양한 액션 헤드를 정해진 시간 동안 순차적으로 실행하여 손 뻗기, 잡기 등의 기본 기술을 학습할 수 있는 정책 아키텍처를 제안합니다. 메타월드 과제에 대한 실증적 평가 결과, 이 단순한 구조가 표준 정책 학습 방법보다 뛰어난 성능을 보임으로써 기술 습득을 향상시킬 수 있는 잠재력을 보여주었습니다. [abs|pdf]

[28/35] GPS-SSL: Guided Positive Sampling to Inject Prior Into Self-Supervised Learning

Keywords: supervised_learning_ssl, learning_gps_ssl, sampling_self_supervised
Abstract: 저희는 자기 지도 학습(SSL)의 양성 샘플 선택에 선험적 지식을 주입하는 일반적인 방법인 유도 양성 샘플링 자기 지도 학습(GPS-SSL)을 제안합니다. 현재의 SSL 방식은 데이터 증강(DA)을 활용하여 양성 샘플을 생성하고 선험적 지식을 통합하는데, DA가 부정확하거나 너무 약하면 학습된 표현의 품질이 크게 떨어집니다. GPS-SSL은 대신 유클리드 거리가 의미론적 관계에 대한 의미 있는 프록시가 되는 메트릭 공간을 설계할 것을 제안합니다. 이 공간에서는 이제 가장 가까운 이웃 샘플링에서 양성 샘플을 생성할 수 있습니다. 이제 모든 사전 지식은 사용된 DA와 독립적으로 해당 메트릭 공간에 포함될 수 있습니다. GPS-SSL은 단순하기 때문에 SimCLR 또는 BYOL과 같은 모든 SSL 방식에 적용할 수 있습니다. GPS-SSL의 주요 이점은 강력한 DA를 맞춤 설정하는 데 따르는 부담을 줄여준다는 점입니다. 예를 들어, 기준선은 37.51%에 불과한 반면, 약한 DA를 사용하는 Cifar10에서는 GPS-SSL이 85.58%에 달합니다. 따라서 저희는 DA에 덜 의존하는 SSL을 만든다는 목표를 향해 한 걸음 더 나아가고 있습니다. 또한 강력한 DA를 사용하는 경우에도 GPS-SSL은 연구가 미흡한 도메인에서 기준선을 능가하는 성능을 보여줍니다. 저희는 모델이 강력하거나 최소한의 데이터 증강을 사용할 때 다양한 도메인의 수많은 다운스트림 데이터 세트에 대해 여러 기준선 SSL 방법과 함께 GPS-SSL을 평가합니다. GPS-SSL이 선험적 지식을 원칙적인 방식으로 SSL에 주입하는 방법을 연구하는 데 새로운 길을 열어줄 것으로 기대합니다. [abs|pdf]

[29/35] Revisiting Zero-Shot Abstractive Summarization in the Era of Large Language Models from the Perspective of Position Bias

Keywords: abstractive_summarization_models, summarization_models_pegasus, shot_abstractive_summarization
Abstract: 우리는 위치 편향을 측정하여 대규모 언어 모델(LLM)에서 제로 샷 추상적 요약의 특성을 파악하고 연구하며, 이는 이전에 문헌에서 연구된 보다 제한적인 리드 편향 현상에 대한 일반적인 공식으로 제안합니다. 위치 편향은 모델이 입력 텍스트의 특정 부분의 정보를 다른 부분보다 불공정하게 우선시하여 바람직하지 않은 행동을 유발하는 경향을 포착합니다. 4가지의 다양한 실제 데이터 세트에 대한 수많은 실험을 통해 GPT 3.5-Turbo, Llama-2, Dolly-v2와 같은 여러 LLM 모델과 페가수스, BART와 같은 사전 학습된 최첨단 인코더-디코더 추상적 요약 모델에서 위치 편향을 연구합니다. 이러한 연구 결과는 제로 샷 요약 작업에서 모델의 성능과 위치 편향에 대한 새로운 인사이트와 논의로 이어집니다. [abs|pdf]

[30/35] Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as Programmers

Keywords: visual_reasoning_tasks, visual_question_answering, visual_reasoning_large
Abstract: 시각적 추론은 수십억 개의 모델 파라미터와 학습 예제로 확장된 엔드투엔드 신경망에 의해 주도됩니다. 하지만 아무리 규모가 큰 모델이라도 구성 추론, 일반화, 세분화된 공간적, 시간적 추론, 수 세기에는 어려움을 겪습니다. 대규모 언어 모델(LLM)을 컨트롤러로 사용하는 시각적 추론은 원칙적으로 일련의 (시각적) 도구를 오케스트레이션하여 작업을 분해하고 하위 작업을 해결함으로써 이러한 한계를 해결할 수 있습니다. 최근 이러한 모델은 구성적 시각적 질문 답변, 시각적 근거, 비디오 시간적 추론과 같은 작업에서 뛰어난 성과를 거두었습니다. 그럼에도 불구하고, 현재 이러한 모델은 프롬프트의 상황에 맞는 예시들을 인간 공학에 크게 의존하고 있으며, 이는 종종 데이터 세트와 작업에 따라 다르며 고도로 숙련된 프로그래머의 상당한 노동력을 필요로 합니다. 이 연구에서는 공간적, 시간적으로 추상적인 루틴을 도입하고 소수의 레이블이 지정된 예제를 활용하여 컨텍스트 내 예제를 자동으로 생성함으로써 사람이 만든 컨텍스트 내 예제를 사용하지 않도록 함으로써 이러한 문제를 완화하는 프레임워크를 제시합니다. 여러 시각적 추론 작업에서 이 프레임워크는 일관된 성능 향상을 가져오고, 컨트롤러로서의 LLM을 더욱 강력하게 설정하며, 컨텍스트 내 예제의 인적 엔지니어링이 필요하지 않다는 것을 보여줍니다. [abs|pdf]

[31/35] FMGS: Foundation Model Embedded 3D Gaussian Splatting for Holistic 3D Scene Understanding

Keywords: vision_language_3d, 3d_vision_language, represent_3d_vision
Abstract: 증강 현실과 로봇 애플리케이션의 지속적인 발전을 위해서는 현실 세계 3D 물체의 기하학적 및 의미적 속성을 정확하게 인식하는 것이 중요합니다. 이를 위해 3D 가우시안 스플래팅(GS)에 기초 모델의 비전 언어 임베딩을 통합하는 FMGS을 소개합니다. 이 작업의 핵심은 3D 비전 언어 모델을 재구성하고 표현하는 효율적인 방법입니다. 이는 이미지 기반 기초 모델에서 생성된 피처 맵을 3D 모델에서 렌더링된 피처 맵으로 추출함으로써 달성할 수 있습니다. 고품질 렌더링과 빠른 훈련을 보장하기 위해 유니티는 GS와 다중 해상도 해시 인코딩(MHE)의 강점을 통합하여 새로운 장면 표현을 도입했습니다. 또한 효과적인 훈련 절차에는 픽셀 수준의 의미적 경계를 따라 동일한 의미적 엔티티의 렌더링된 특징 거리를 가깝게 만드는 픽셀 정렬 손실이 도입되어 있습니다. 우리의 결과는 다양한 다운스트림 작업을 용이하게 하는 놀라운 멀티뷰 의미론적 일관성을 보여주며, 추론 속도가 851배 빠름에도 불구하고 개방형 어휘 언어 기반 객체 검출에서 최첨단 방법을 10.2% 앞섰습니다. 이 연구는 시각, 언어, 3D 장면 표현의 교차점을 탐구하여 통제되지 않은 실제 환경에서 장면 이해를 향상시킬 수 있는 길을 열어줍니다. 논문이 승인되면 코드를 공개할 계획입니다. [abs|pdf]

[32/35] A Mechanistic Understanding of Alignment Algorithms: A Case Study on DPO and Toxicity

Keywords: algorithm_direct_preference, preference_optimization, direct_preference_optimization
Abstract: 정렬 알고리즘은 현재 사용자의 선호도에 맞게 사전 학습된 언어 모델을 조정하는 데 일반적으로 사용되지만, 모델이 '정렬'되는 근본적인 메커니즘에 대한 설명이 부족하여 탈옥과 같은 현상을 설명하기 어렵습니다. 이 연구에서는 널리 사용되는 알고리즘인 직접 선호도 최적화(DPO)와 이 알고리즘이 독성을 감소시키는 메커니즘을 연구합니다. 즉, 먼저 사전 학습된 언어 모델인 GPT2-medium에서 독성이 어떻게 표현되고 도출되는지 연구합니다. 그런 다음 독성을 줄이기 위해 신중하게 제작된 쌍별 데이터 세트에 DPO를 적용합니다. 결과 모델이 어떻게 독성이 있는 출력을 피하는지 살펴보고, 사전 학습을 통해 학습된 기능이 제거되지 않고 오히려 우회되는 것을 발견합니다. 이러한 인사이트를 바탕으로 모델을 정렬 해제하여 독성이 있는 동작으로 되돌릴 수 있는 간단한 방법을 시연합니다. [abs|pdf]

[33/35] Instruct-Imagen: Image Generation with Multi-modal Instruction

Keywords: diverse_image_generation, generation_external_multimodal, image_generation_tasks
Abstract: 이 논문에서는 이질적인 이미지 생성 작업을 처리하고 보이지 않는 작업까지 일반화할 수 있는 모델인 인스트럭-이매지네이션(instruct-imagen)을 소개합니다. 다양한 생성 의도를 정확하게 표현하는 작업 표현인 이미지 생성을 위한 멀티 모달 인스트럭션을 소개합니다. 자연어를 사용하여 서로 다른 양식(예: 텍스트, 가장자리, 스타일, 피사체 등)을 통합함으로써 풍부한 생성 의도를 통일된 형식으로 표준화할 수 있습니다.
그런 다음 2단계 프레임워크로 사전 학습된 텍스트-이미지 확산 모델을 미세 조정하여 인스트럭-이미지를 구축합니다. 먼저, 검색 증강 훈련을 사용하여 모델을 조정하여 외부 멀티모달 컨텍스트에 기반한 모델 생성 기능을 향상시킵니다. 그런 다음, 시각 언어 이해가 필요한 다양한 이미지 생성 작업(예: 피사체 중심 생성 등)에 대해 적응된 모델을 미세 조정하고, 각 작업의 본질을 요약하는 멀티모달 명령어와 짝을 이룹니다. 다양한 이미지 생성 데이터 세트에 대한 인적 평가 결과, 인스트럭트-이미지는 도메인의 기존 작업별 모델과 일치하거나 이를 능가하며, 보이지 않는 더 복잡한 작업에 대한 일반화가 유망한 것으로 나타났습니다. [abs|pdf]

[34/35] Can We Generate Realistic Hands Only Using Convolution?

Keywords: images_generated_gans, gans_variational_autoencoders, generated_gans_variational
Abstract: 이미지 생성 모델이 사람의 손이나 손가락과 같은 복잡한 기하학적 특징을 재현하지 못하는 것은 거의 10년 동안 이미지 생성 분야에서 지속되어 온 문제였습니다. 모델 크기를 늘리고 훈련 데이터 세트를 다양화함으로써 진전이 있었지만, 이 문제는 노이즈 제거 확산 모델부터 생성적 적대 신경망(GAN)에 이르기까지 모든 모델에서 여전히 만연해 있으며, 이는 기본 아키텍처의 근본적인 결함을 지적합니다. 이 백서에서는 상대적인 n 차원 데카르트 좌표계를 통합하는 단일 입력 채널을 제공함으로써 컨볼루션 레이어의 기하학적 기능을 강화하여 이 문제를 완화할 수 있는 방법을 설명합니다. 이를 통해 GAN과 변형 자동 인코더(VAE)에서 생성된 손과 얼굴 이미지의 품질이 크게 향상됨을 보여줍니다. [abs|pdf]

[35/35] Generalist embedding models are better at short-context clinical semantic search than specialized embedding models

Keywords: clinical_domain_semantic, large_language_models, language_models
Abstract: 의료 분야의 다양한 작업에 대규모 언어 모델(LLM)을 기반으로 하는 도구와 솔루션의 사용이 증가하는 추세가 두드러지고 있습니다. 이처럼 매우 중요하고 민감한 영역에서 이러한 도구가 사용됨에 따라 특히 입력의 변화에 따른 견고성과 생성된 결과물의 신뢰성에 대한 중요한 의문이 제기되었습니다. 이 연구는 미국 병원에서 널리 사용되고 많은 임상 용어가 포함된 ICD-10-CM 코드 설명과 쉽게 재현 가능한 문구 변경을 기반으로 텍스트 데이터 세트를 구축하여 이러한 문제를 해결했습니다. 그런 다음, 재구문된 텍스트를 원래 설명과 정확하게 일치시키는 것이 목표인 의미론적 검색 작업에서 제너럴리스트 또는 임상 영역에 특화된 기존의 임베딩 모델을 벤치마킹했습니다. 그 결과 제너럴리스트 모델이 임상 모델보다 더 나은 성능을 보였으며, 이는 기존의 임상 전문 모델이 입력의 작은 변화에도 혼동을 일으키는 데 더 민감하다는 것을 시사합니다. 전문화 모델의 두드러진 문제점은 충분한 데이터, 특히 의료 문서를 정확하게 처리하는 데 필요한 신뢰할 수 있는 글로벌 언어 이해력을 갖출 만큼 다양하지 않은 데이터 세트에 대해 학습하지 않았기 때문일 수 있습니다. [abs|pdf]