상세 컨텐츠

본문 제목

OCR 문제

출장 자동화 시스템

by myeongjaechoi 2025. 4. 18. 15:52

본문

OCR 테스트

  • Tesseract
  • easyOCR
  • PaddleOCR
  • Tesseract + layoutlmv3
  • easyOCR + layoutlmv3
  • PaddleOCR + layoutlmv3

위 케이스들을 테스트 한 결과, 모두 성능이 좋지 않았다..

우리의 장점은 적은 비용으로도 출장 자동화 서비스를 가능하게 하는 것이 목적이라 라이센스가 상업적으로도 가능하고 성능이 우수한 것을 찾으려 하고있다.

그래서 팀원 한 명은 이미지 전처리를 진행 중이고, 그리고 나랑 팀원 한 명은 요새 나온 MCP, A2A에 대해 공부하고 모델을 찾고 있다.

Agent-S에서 Tesseract을 사용하길래 사용해봤는데, 성능이 좋지 않았다. 왜 그런가 코드를 다시 자세히 봤더니, Tesseract으로 base64로 인코딩 한 후에 Claude-3.7-sonnet으로 보내고 다시 받아서 특정 텍스트랑 좌표를 추출한다.

핑계지만.. 여태 눈에 띄는 성과는 없어서 블로그를 못올렸다 ㅠㅠ

아 그리고 Agent-S 사용해봤는데, 크롬창 한 개 띄우는데 3분이나 걸리는 것을 확인했다.

'출장 자동화 시스템' 카테고리의 다른 글

OCR + LLM  (0) 2025.04.24
네트워킹을 통한 피드백 및 페르소나 정의  (0) 2025.04.20
Agent-S agent_s.py  (2) 2025.03.31
Agent-s knowledge.py  (0) 2025.03.31
Agent-S mllm.py, module.py  (0) 2025.03.30

관련글 더보기