OCR 문제

by myeongjaechoi 2025. 4. 18. 15:52

OCR 테스트

위 케이스들을 테스트 한 결과, 모두 성능이 좋지 않았다..

우리의 장점은 적은 비용으로도 출장 자동화 서비스를 가능하게 하는 것이 목적이라 라이센스가 상업적으로도 가능하고 성능이 우수한 것을 찾으려 하고있다.

그래서 팀원 한 명은 이미지 전처리를 진행 중이고, 그리고 나랑 팀원 한 명은 요새 나온 MCP, A2A에 대해 공부하고 모델을 찾고 있다.

Agent-S에서 Tesseract을 사용하길래 사용해봤는데, 성능이 좋지 않았다. 왜 그런가 코드를 다시 자세히 봤더니, Tesseract으로 base64로 인코딩 한 후에 Claude-3.7-sonnet으로 보내고 다시 받아서 특정 텍스트랑 좌표를 추출한다.

핑계지만.. 여태 눈에 띄는 성과는 없어서 블로그를 못올렸다 ㅠㅠ

아 그리고 Agent-S 사용해봤는데, 크롬창 한 개 띄우는데 3분이나 걸리는 것을 확인했다.