금융 서비스 분야에서 신용 리스크 관리와 신용 결정 과정은 개인과 기업의 재무 건전성을 평가하고, 잠재적인 신용 손실을 예측하는 데 중요한 역할을 한다. 전통적으로 이 과정은 재무제표, 신용 기록, 시장 위치 등의 정보에 의존해왔다. 하지만 전통적인 데이터 소스만으로는 개인과 기업의 신용 리스크를 전면적으로 평가하기에 한계가 있다는 점이 드러나고 있다. 이러한 상황에서 AI 기술과 대체 데이터의 결합은 신용 평가 방법론에 혁신을 가져오고 있다. / 대체 데이터는 개인의 온라인 거래 기록, 소셜 미디어 활동, 온라인 고객 리뷰, 심지어 위성 이미지 분석까지 포함하여, 전통적인 재무 데이터에서 파악하기 어려운 다양한 측면의 정보를 제공한다. 이러한 데이터는 AI와 머신러닝 알고리즘으로 분석할 때, 개인과 기업의 신용 리스크를 더욱 다각도에서 평가할 수 있는 새로운 기회를 열어준다.
--- p.19
투자 전략의 성공을 판단할 때 높은 수익률만을 기준으로 삼는 것은 충분하지 않다. 수익률은 투자에서 발생하는 위험, 시장 변동성, 자금 유동성 등 다른 중요한 요소들을 고려하지 않기 때문이다. 따라서 투자 전략의 진정한 성공을 평가하기 위해서는, 수익률 이외에도 위험 관리, 장기적 안정성, 시장 조건 변화에 대한 적응력 등 다양한 각도에서 그 효과성을 검토해야 한다. / 예를 들어 위험 조정 수익률 지표들은 투자자가 수익을 얻기 위해 얼마나 많은 위험을 감수했는지를 보여준다. 이는 단순한 수익률만으로는 투자 전략의 효과를 정확히 평가할 수 없기 때문이다. 높은 수익률을 달성했더라도 그 과정에서 많은 위험을 감수했다면, 그 전략은 결코 최선의 선택이 아닐 수 있다. 또한 투자의 변동성은 투자자의 리스크 허용 범위와 직결된다. 낮은 변동성은 안정적인 수익률을 의미할 수 있지만, 때로는 높은 변동성이 높은 수익률로 이어질 수도 있다. 그러나 높은 변동성은 큰 손실로도 이어질 수 있으므로, 투자자는 자신의 위험 감수 능력에 맞는 전략을 선택해야 한다.
--- pp.73-74
AUC-ROC는 모델이 다양한 임곗값에서 어떻게 성능을 나타내는지를 종합적으로 보여준다. ROC 곡선은 실제로 긍정인 경우를 얼마나 잘 긍정으로 예측하는지(TPR)와 실제로 부정인 경우를 얼마나 잘 부정으로 예측하는지(FPR)를 다양한 임곗값에서 보여준다. 이러한 방식으로 AUC-ROC는 모델이 클래스 간 구분을 얼마나 잘 하는지에 대한 전체적인 그림을 제공한다. / 불균형 데이터셋에서는 한 클래스의 예시가 다른 클래스보다 훨씬 많다. 신용 평가 모델에서는 우량 고객(부정적 사례)이 불량 고객(긍정적 사례)보다 많은 경우가 일반적이다. 이런 상황에서는 단순히 모델이 대부분의 예시를 우량 고객으로 예측해도 높은 정확도를 얻을 수 있지만, 이는 실제로 모델의 성능이 좋다는 것을 의미하지 않는다. AUC-ROC는 모델이 양 클래스를 얼마나 잘 구분하는지를 보여주기 때문에, 불균형 데이터에서도 모델의 실제 성능을 공정하게 평가할 수 있다. 모델이 단순히 다수 클래스를 예측하는 데 치우쳐 있지 않고, 소수 클래스의 예측에도 뛰어난 능력을 보인다면, AUC-ROC값이 높게 나타날 것이다.
--- p.134
금융 사기 거래 탐지에서 데이터의 불균형은 큰 도전 과제 중 하나다. 사기 거래는 전체 거래에서 차지하는 비율이 매우 낮아, 이러한 불균형한 데이터 상태에서 효과적인 모델링을 위해서는 특별한 접근 방법이 필요하다. 여기서 우리는 트리 기반 모델을 활용할 예정이며, 데이터 불균형 문제를 해결하기 위해 SMOTE(synthetic minority over-sampling technique) 기법을 사용한다. SMOTE는 소수 클래스의 샘플을 합성하여 모델 학습 시 소수 클래스의 영향력을 강화하는 기법이다. / 이 단계에서는 모델의 성능 극대화를 위한 복잡한 파라미터 튜닝보다는 불균형 데이터를 처리하면서 기본적으로 사용할 수 있는 기법들을 적용하는 데 의의를 둔다.
--- pp.225-226
데이터 파이프라인 구축은 AI 기반 시스템에서 데이터를 효율적으로 관리하고 활용하기 위한 핵심적인 작업이다. 파이프라인은 두 가지 주요 목적을 가진다. 바로 ‘분석을 위한 데이터 파이프라인’과 ‘운영 모델을 지원하는 데이터 파이프라인’이다. / 분석을 위한 데이터 파이프라인(data pipeline)은 데이터 과학자와 분석가들이 데이터에 쉽게 접근하고 분석할 수 있도록 설계된다. 이러한 파이프라인은 데이터의 수집, 정제, 전처리 및 변환 과정을 포함하여 데이터를 분석 준비 상태로 만든다. 예를 들어 원천 데이터로부터 유의미한 인사이트를 도출하기 위해 데이터 웨어하우스나 데이터 레이크에 저장된 데이터를 활용할 수 있다. / 운영 모델을 지원하는 데이터 파이프라인은 신용 평가와 사기 탐지 모델 같은 AI 모델이 실시간 또는 배치 처리 방식으로 데이터를 처리하고 예측할 수 있도록 지원한다. 이러한 파이프라인은 모델의 학습, 배포, 예측 결과 생성을 포함한 머신러닝 라이프사이클 자동화에 중점을 둔다.
--- p.280
RAG(retrieval-augmented generation)는 입력된 프롬프트를 바탕으로 관련 데이터베이스나 문서에서 정보를 검색하고 검색된 정보를 통합해 응답을 생성하는 방법이다. 일반적인 LLM은 이미 학습된 데이터를 바탕으로 텍스트를 생성한다. 이 모델들은 대량의 텍스트 데이터로 훈련되어 일반적인 질문에 논리적이고 자연스러운 답변을 할 수 있지만, 그 데이터가 최신의 정보를 반영하지 못하는 경우가 있다. 즉 훈련 데이터에 없는 최신 정보나 특정한 전문 지식을 요구하는 질문에는 정확하게 대응하기 어려울 수 있다. / 반면에 RAG는 필요할 때마다 적절한 데이터를 즉시 검색하여 정보를 찾아 답변을 생성한다. 이 과정에서 RAG는 입력된 프롬프트와 관련된 정보를 데이터베이스에서 실시간으로 검색하고, 검색된 정보를 기반으로 응답을 구성한다. 이 방식은 모델이 학습 데이터에 포함되지 않은 최신 정보나 더 깊이 있는 데이터에 접근할 수 있게 해준다. 결과적으로 RAG를 사용할 때는 더 업데이트된 정보를 반영하고, 더 정확하고 신뢰성 있는 답변을 생성할 수 있다.
--- pp.317-318