Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 순위출력
- 회귀분석 알고리즘
- 막대그래프
- max
- count
- 빅데이터
- Dense_Rank
- 그래프시각화
- 정보획득량
- sqld
- 빅데이터분석
- 데이터분석가
- 총과 카드만들기
- 회귀분석
- 데이터분석
- 그래프 생성 문법
- Intersect
- 여러 데이터 검색
- 팀스파르타
- merge
- if문 작성법
- 단순회귀 분석
- difftime
- Sum
- 히스토그램 그리기
- loop 문
- 상관관계
- 불순도제거
- %in%
- sql
Archives
- Today
- Total
ch0nny_log
[빅데이터분석] 딥러닝_19. 자연어 처리 신경망 만들어서 챗봇 만들기 본문
!pip install -q sentence-transformers
import pandas as pd
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
SentenceBERT를 이용한 문장 인코딩
https://huggingface.co/jhgan/ko-sroberta-multitask
encoder = SentenceTransformer('jhgan/ko-sroberta-multitask')
sentences = ["안녕하세요?", "한국어 문장 임베딩을 위한 버트 모델입니다."]
embeddings = encoder.encode(sentences)
print(embeddings)
데이터셋 로드
df = pd.read_csv('https://github.com/kairess/mental-health-chatbot/raw/master/wellness_dataset_original.csv')
df.head()
데이터 전처리
- 필요없는 칼럼 제거
- 챗봇 내용 없는 행 제거
df = df.drop(columns=['Unnamed: 3'])
df.head()
print(len(df))
df = df.dropna()
print(len(df))
챗봇의 원리
df.loc[0, '유저']
encoder.encode(df.loc[0, '유저'])
모든 데이터셋 인코딩
df['embedding'] = pd.Series([[]] * len(df)) # dummy
df['embedding'] = df['유저'].map(lambda x: list(encoder.encode(x)))
df.head()
예제 문장 입력
text = '요즘 남편이 비트코인도 하고 속을 너무 썩이네'
embedding = encoder.encode(text)
embedding
text = '요즘 남편이 비트코인도 하고 속을 너무 썩이네'
embedding = encoder.encode(text)
embedding
입력된 문장에 대해 유사도 계산
df['similarity'] = df['embedding'].map(lambda x: cosine_similarity([embedding], [x]).squeeze())
df.head()
유사도가 가장 높은 답변을 채택
answer = df.loc[df['similarity'].idxmax()]
print('구분', answer['구분'])
print('유사한 질문', answer['유저'])
print('챗봇 답변', answer['챗봇'])
print('유사도', answer['similarity'])
answer
심리상담 챗봇 앱
!pip install -q gradio
import gradio as gr
def greet(user):
embedding = encoder.encode(user)
df['distance'] = df['embedding'].map(lambda x: cosine_similarity([embedding], [x]).squeeze())
answer = df.loc[df['distance'].idxmax()]
return answer['챗봇']
demo = gr.Interface(fn=greet, inputs="text", outputs="text")
demo.launch(debug=True, share=True)
import gradio as gr
def greet(user, history=[]):
embedding = encoder.encode(user)
df['distance'] = df['embedding'].map(lambda x: cosine_similarity([embedding], [x]).squeeze())
answer = df.loc[df['distance'].idxmax()]
history.append([user, answer['챗봇']])
return history, history
demo = gr.Interface(fn=greet, inputs=["text", "state"], outputs=["chatbot", "state"])
demo.launch(debug=True, share=True)
import gradio as gr
def greet(user, history=[]):
embedding = encoder.encode(user)
df['distance'] = df['embedding'].map(lambda x: cosine_similarity([embedding], [x]).squeeze())
answer = df.loc[df['distance'].idxmax()]
history.append([user, answer['챗봇']])
return history, history
demo = gr.Interface(fn=greet, inputs=["text", "state"], outputs=["chatbot", "state"])
demo.launch(debug=True, share=True)
'빅데이터 분석(with 아이티윌) > deep learning' 카테고리의 다른 글
[빅데이터분석] 딥러닝_21. 영상 인터페이스 구현 (+streamlit 생성) (2) | 2024.10.31 |
---|---|
[빅데이터분석] 딥러닝_20. 홈페이지에 있는 일반 상담 챗봇 만들기(+streamlit 업로드) (0) | 2024.10.30 |
[빅데이터분석] 딥러닝_17.영상 속에서 사물인식하기 (0) | 2024.10.28 |
[빅데이터분석] 딥러닝_16. 사진 속에서 검출 인터페이스 만들기 (1) | 2024.10.24 |
[빅데이터분석] 딥러닝_15. 딥러닝의 역사 (0) | 2024.10.22 |