ch0nny_log

[빅데이터분석] 딥러닝_19. 자연어 처리 신경망 만들어서 챗봇 만들기 본문

빅데이터 분석(with 아이티윌)/deep learning

[빅데이터분석] 딥러닝_19. 자연어 처리 신경망 만들어서 챗봇 만들기

chonny 2024. 10. 30. 10:41

 

 

04. 자연어 처리를 활용한 심리상담 챗봇 만들기의 사본

Colab notebook

colab.research.google.com

 

!pip install -q sentence-transformers
import pandas as pd
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity

SentenceBERT를 이용한 문장 인코딩

https://huggingface.co/jhgan/ko-sroberta-multitask

 

jhgan/ko-sroberta-multitask · Hugging Face

ko-sroberta-multitask This is a sentence-transformers model: It maps sentences & paragraphs to a 768 dimensional dense vector space and can be used for tasks like clustering or semantic search. Usage (Sentence-Transformers) Using this model becomes easy wh

huggingface.co

encoder = SentenceTransformer('jhgan/ko-sroberta-multitask')

sentences = ["안녕하세요?", "한국어 문장 임베딩을 위한 버트 모델입니다."]
embeddings = encoder.encode(sentences)

print(embeddings)

 

데이터셋 로드

df = pd.read_csv('https://github.com/kairess/mental-health-chatbot/raw/master/wellness_dataset_original.csv')

df.head()

데이터 전처리

  • 필요없는 칼럼 제거
  • 챗봇 내용 없는 행 제거
df = df.drop(columns=['Unnamed: 3'])

df.head()

print(len(df))

df = df.dropna()

print(len(df))

챗봇의 원리

df.loc[0, '유저']

encoder.encode(df.loc[0, '유저'])

모든 데이터셋 인코딩

df['embedding'] = pd.Series([[]] * len(df)) # dummy

df['embedding'] = df['유저'].map(lambda x: list(encoder.encode(x)))

df.head()

예제 문장 입력

text = '요즘 남편이 비트코인도 하고 속을 너무 썩이네'

embedding = encoder.encode(text)

embedding
text = '요즘 남편이 비트코인도 하고 속을 너무 썩이네'

embedding = encoder.encode(text)

embedding​

입력된 문장에 대해 유사도 계산

df['similarity'] = df['embedding'].map(lambda x: cosine_similarity([embedding], [x]).squeeze())

df.head()

유사도가 가장 높은 답변을 채택

answer = df.loc[df['similarity'].idxmax()]

print('구분', answer['구분'])
print('유사한 질문', answer['유저'])
print('챗봇 답변', answer['챗봇'])
print('유사도', answer['similarity'])
answer

심리상담 챗봇 앱

!pip install -q gradio
import gradio as gr

def greet(user):
    embedding = encoder.encode(user)

    df['distance'] = df['embedding'].map(lambda x: cosine_similarity([embedding], [x]).squeeze())
    answer = df.loc[df['distance'].idxmax()]

    return answer['챗봇']

demo = gr.Interface(fn=greet, inputs="text", outputs="text")

demo.launch(debug=True, share=True)

import gradio as gr

def greet(user, history=[]):
    embedding = encoder.encode(user)

    df['distance'] = df['embedding'].map(lambda x: cosine_similarity([embedding], [x]).squeeze())
    answer = df.loc[df['distance'].idxmax()]

    history.append([user, answer['챗봇']])

    return history, history

demo = gr.Interface(fn=greet, inputs=["text", "state"], outputs=["chatbot", "state"])

demo.launch(debug=True, share=True)

 

import gradio as gr

def greet(user, history=[]):
    embedding = encoder.encode(user)

    df['distance'] = df['embedding'].map(lambda x: cosine_similarity([embedding], [x]).squeeze())
    answer = df.loc[df['distance'].idxmax()]

    history.append([user, answer['챗봇']])

    return history, history

demo = gr.Interface(fn=greet, inputs=["text", "state"], outputs=["chatbot", "state"])

demo.launch(debug=True, share=True)