위 케이스들을 테스트 한 결과, 모두 성능이 좋지 않았다..
우리의 장점은 적은 비용으로도 출장 자동화 서비스를 가능하게 하는 것이 목적이라 라이센스가 상업적으로도 가능하고 성능이 우수한 것을 찾으려 하고있다.
그래서 팀원 한 명은 이미지 전처리를 진행 중이고, 그리고 나랑 팀원 한 명은 요새 나온 MCP, A2A에 대해 공부하고 모델을 찾고 있다.
Agent-S에서 Tesseract을 사용하길래 사용해봤는데, 성능이 좋지 않았다. 왜 그런가 코드를 다시 자세히 봤더니, Tesseract으로 base64로 인코딩 한 후에 Claude-3.7-sonnet으로 보내고 다시 받아서 특정 텍스트랑 좌표를 추출한다.
핑계지만.. 여태 눈에 띄는 성과는 없어서 블로그를 못올렸다 ㅠㅠ
아 그리고 Agent-S 사용해봤는데, 크롬창 한 개 띄우는데 3분이나 걸리는 것을 확인했다.
| OCR + LLM (0) | 2025.04.24 |
|---|---|
| 네트워킹을 통한 피드백 및 페르소나 정의 (0) | 2025.04.20 |
| Agent-S agent_s.py (2) | 2025.03.31 |
| Agent-s knowledge.py (0) | 2025.03.31 |
| Agent-S mllm.py, module.py (0) | 2025.03.30 |