시작하기(챗봇)

챗봇 학습을 위한 데이터를 수정하는 인원을 위한 튜토리얼입니다.

#1. Google SpreadSheet (엑셀) 권한 받기

권한을 받기 위해서 gmail 이 필요합니다.
권한을 넣을 gmail 을 알려주세요 

#2. dataset 과 친해지기

모든 질문과 답변은 첫번째 시트인 "실제 dataset" 에 작성되어야 합니다.
다른 시트는 내용 추합을 도와주기 위해 존재합니다.
실제 dataset 에서는 다음 규칙을 정확히 지켜야 합니다.

1. 질문은 항상 ~요 로 끝나게 합니다.
> 일관성 있는 문장을 위해서이기도 하지만 정확성을 위해서도 중요합니다.

2. 같은 답을 가진 여러개의 질문은 적어도 좋습니다.

ex)
커농 다 자란 모습도 위키에 적혀있나요?
고급과성장 쓰면 몇퍼인가요?

두개의 질문은 모두 커농 기본 질문이므로 그에 관한 답변이 적절하나 두개는 상당히 다른 질문입니다. 
이런 경우 여러개의 질문이 하나의 답변을 가지는 것은 괜찮습니다.

3. 질문이 비슷한 경우는 적지 않고 하나의 대표 질문만 적습니다. 

ex)
커농 다 자란 모습도 위키에 적혀있나요?
커스텀 농작물 다 자란 것 확인 가능한가요?
커스텀 농작물이 다 자란 모습 위키에서 볼 수 있나요?

세개의 질문은 서로 비슷하기 때문에 적지 않고 대표하는 하나의 질문만 적습니다.
그 이유는 인공지능을 통해 질문에서 최대한 질문을 유추한 후에 답변하기 때문입니다.

가장 중요하게 생각해야 하는 것은, 중복 "질문" 을 적지 않는 것입니다. 인공지능이 처리하는 것은 "유저가 물은 질문" 을 인식하여 "가장 비슷한 질문" 을 찾아가는 과정입니다. 그렇기에 여러개의 비슷한 질문을 데이터셋에 등록하는 것은 이 과정을 돕지 않습니다.

#3. dataset.csv 추출 후 github 에 올리기

#4. (필요한 사람만) Google colab 권한 쉐어받기

google colab screenshot

빨간색 버튼을 누르면 내 컴퓨터에 조금 있다 data.json 이 다운로드 됩니다.

#5. github 에 data.json PR 하기

Last updated