안녕하세요 다제 입니다.
최근 facebook에서 bb3 등이 나오면서 챗봇에 대한 관심이 급증하고 있습니다.
물론, 성능적인 이슈로 많은 글들이 reddit에 올라오고 있지만, 그래도 인터넷에서 검색한 결과를 가지고 그정도 이야기를 한다는 것이 참 대단하다고 개인적으로는 생각하고 있습니다.
facebook이 어떻게 bb3를 만들었는지는 추후 다룰 예정이고, 오늘은 blenderbot에서 인터넷 검색을 할 수 있도록 도와주는 server에 대해서 코드를 리뷰하는 시간을 갖도록 하겠습니다.
해당 코드는 https://github.com/JulesGM/ParlAI_SearchEngine 여기서 바로 보실 수 있으며, 이분이 작성한 코드를 리뷰한 것입니다. 여기서 들어가시면 어떻게 설치하고 사용하는지 방법이 자세히 기재되어 있지만 그래도 한번 더 설명을 드리겠습니다.
오늘은 목차를 아래와 같습니다.
0. 오~ 신기해!
1. 어떻게 설치를 하는지?
2. 어떻게 사용해야하는지?
3. 어떻게 작동하는지?
0. 오~ 신기해!
저는 손흥민을 좋아해서 손흥민을 검색해보았습니다.
서버에서 검색한 결과가 위에 있는 것이고, 아래는 웹사이트에서 검색한 이미지 입니다.
서버에서 전송해주는 값과 검색되는 값이 마케팅적인 요소로 인해 일부 다르긴 하지만, 그래도 비슷한 내용을 불러온다는 것을 볼 수 있습니다. 자 그렇다면 이 서버를 어떻게 설치하고 도대체 어떻게 작동을 하는지 알아보도록 하겠습니다.
1. 어떻게 설치를 하는지?
먼저, git을 clone합니다. 이건 아실거라 믿습니다...
# git clone
git clone https://github.com/JulesGM/ParlAI_SearchEngine.git
그래도 혹시 모르니.. 아래 이미지를 첨부하겠습니다.
위에 녹색으로 표기된 <> code를 누르면, 위와 같은 창이 하나 뜹니다. 저기서 복사 버튼을 클릭하면 됩니다.
그리고 커맨트 창으로 가서 위에 기재한 코드를 입력하면 폴더가 하나 생기는 것을 볼 수 있습니다.
그럼, 해당 폴더로 들어갑니다.
cd ParlAI_SearchEngine
그럼 깃허브에서 보이는 것처럼 파일들이 보이게 됩니다.
그 상태에서 parlai 라이브러리를 설치하지 않으셨다면, conda 환경을 하나 생성합니다.
# 기존에 활성화된 conda를 끕니다.
conda deactivate
# 새로운 conda 환경을 생성합니다.
conda create -n parlai python=3.8 -y
# parlai라는 이름을 가진 conda를 만들것이고
# 이것의 파이썬 버전은 3.8를 사용할 것이고
# 설치 중간에 yes를 입력하는 것을 바로 하기 위해 -y 옵션을 넣어주는 것입니다.
# 새로운 conda를 실행합니다.
conda activate parlai
그후 바로 pip install requirements.txt를 하면 됩니다.
pip install -r requirements.txt
이렇게 하면 설치는 모두 끝납니다.
2. 어떻게 사용해야하는지?
터미널 창을 하나 더 켜주어서 같은 conda 환겨으로 접속하고, 아래 명령어를 입력하여 서버를 실행 시켜줍니다.
python search_server.py serve --host 0.0.0.0:8080
이 명령어를 설명드리겠습니다.
python search_server.py는 파이썬 파일을 실행하겠다라는 이야기입니다.
여러분이 간단한 파이썬 파일을 만들고 그 안에 프린터 명령어를 기재하고 python test.py 라고 하면 프린터 되는 것을 볼 수 있습니다.
그 뒤에 serve라는 것은 search_server.py 파일에서 Application에 있는 serve입니다.
그리고 --host는 우리가 실행할 서버를 어디에 올려야하는지 명기해주는 것입니다.
그리고 원래 실행되고 있던 터미널 창에는 아래와 같이 입력을 하게 되면 맨 처음 보신 이미지와 같이 검색이 되는 것을 확인할 수 있습니다.
curl -X POST "http://0.0.0.0:8080" -d "q=손흥민&n=5"
curl에 대한 설명은 별도의 포스팅을 해놓았습니다. 해당 글을 참고해주시면 감사드리겠습니다.
2022.11.18 - [Code/기타] - [Overview] curl이란? (feat.curl의 작동원리)
그럼 실행하는 방법도 모두 알아보았습니다. 그럼 이 서버가 어떻게 작동하는지를 알아보도록 하겠습니다.
3. 어떻게 작동하는지?
코드를 쭉 읽어보시면, 아래 순서와 같이 작동을 하는지는 쉽게 알 수 있습니다.
class Application : serve
↓
class GoogleSearchServer
그런데, 이 후 do_POST라는 함수가 작동이 되는데 디버그를 해보면 실제로 그냥 건너뛰게 됩니다.
왜 이렇게 작동을 하는지 몰라서 한참을 고민하던 끝에 이유를 발견하였습니다.
먼저, 다시 한번 실행되는 순서를 확인하기 위해 import traceback을 하여 call 되는 순서를 출력해보았습니다.
class SearchABC(http.server.BaseHTTPRequestHandler):
def do_POST(self):
""" Handle POST requests from the client. (All requests are POST) """
#######################################################################
# Prepare and Parse
#######################################################################
for line in traceback.format_stack():
print(line.strip())
위와 같이 for문을 추가하면, 아래와 같은 결과가 출력이 됩니다.
Host: 0.0.0.0:8080
File "/home/.conda/envs/parlai/lib/python3.8/threading.py", line 890, in _bootstrap
self._bootstrap_inner()
File "/home/.conda/envs/parlai/lib/python3.8/threading.py", line 932, in _bootstrap_inner
self.run()
File "/home/.conda/envs/parlai/lib/python3.8/threading.py", line 870, in run
self._target(*self._args, **self._kwargs)
File "/home/.conda/envs/parlai/lib/python3.8/socketserver.py", line 683, in process_request_thread
self.finish_request(request, client_address)
File "/home/.conda/envs/parlai/lib/python3.8/socketserver.py", line 360, in finish_request
self.RequestHandlerClass(request, client_address, self)
File "/home/.conda/envs/parlai/lib/python3.8/socketserver.py", line 747, in __init__
self.handle()
File "/home/.conda/envs/parlai/lib/python3.8/http/server.py", line 427, in handle
self.handle_one_request()
File "/home/.conda/envs/parlai/lib/python3.8/http/server.py", line 415, in handle_one_request
method()
File "search_server.py", line 92, in do_POST
for line in traceback.format_stack():
아! threading.py라는 파일로 넘어가는구나를 확인할 수 있고, 거기에서 handle_one_request라는 코드를 보면 되겠구나를 확인하였습니다.
def handle_one_request(self):
"""Handle a single HTTP request.
You normally don't need to override this method; see the class
__doc__ string for information on how to handle specific HTTP
commands such as GET and POST.
"""
try:
self.raw_requestline = self.rfile.readline(65537)
if len(self.raw_requestline) > 65536:
self.requestline = ''
self.request_version = ''
self.command = ''
self.send_error(HTTPStatus.REQUEST_URI_TOO_LONG)
return
if not self.raw_requestline:
self.close_connection = True
return
if not self.parse_request():
# An error code has been sent, just exit
return
mname = 'do_' + self.command
if not hasattr(self, mname):
self.send_error(
HTTPStatus.NOT_IMPLEMENTED,
"Unsupported method (%r)" % self.command)
return
method = getattr(self, mname)
method()
self.wfile.flush() #actually send the response if not already done.
except socket.timeout as e:
#a read or a write timed out. Discard this connection
self.log_error("Request timed out: %r", e)
self.close_connection = True
return
위 코드를 천천히 읽어보시면, command 라인에 입력된 command를 가지고 와서 앞에 do_를 붙히는 것을 볼 수 있습니다.
그런 후 getattr로 해당 텍스트의 속성 값을 호출하게 되고, 그 호출된 것을 method로 정의한 후 실행하는 코드를 볼 수 있습니다.
참 오래오래 디버깅한 끝에 알아냈습니다. 인공지능만 잘하면 되는 것이 아니라 이런 부분도 빠르게 읽을 수 있다면 연구하는데 속도가 날 것이라고 생각이 드는 하루였습니다.
이렇게 출력된 값이 오게 되니 이후 커스터마이징하면 제가 원하는 값을 처리 할 수 있을 듯 싶습니다.
SeeKeR를 사용하시는 분들을 위해 SeeKeR 샘플 코드도 함께 기재 드립니다.
# SeeKeR
python -m parlai.scripts.interactive -mf zoo:seeker/seeker_dialogue_400M/model \
-o /Users/kds/Documents/openchat/workspace/ko_parlai/parlai/opt_presets/gen/seeker_dialogue \
--search-server 0.0.0.0:8080
# 이렇게 --search-server라는 명령어를 입력하여 사용하시면 됩니다.
이상 글을 마치겠습니다.
감사합니다.
'Code > 기타' 카테고리의 다른 글
NAS gitlab Settings (0) | 2023.12.30 |
---|---|
[Overview] curl이란? (feat.curl의 작동원리) (0) | 2022.11.18 |
[Overview] Slurm, nn.ModuleList (0) | 2022.11.10 |
HuggingFace GPT2 tokenizer special token 추가하기 ( feat. adding HuggingFace Bert tokenizer special token ) (0) | 2022.09.21 |
네이버 뉴스 크롤링 업데이트 버전 ( feat. naver new crawling update version with selenium ) (0) | 2022.09.21 |