여러 논문들을 찾아 본 결과, OCR -> LLM 과정으로 오탈자들을 수정하는 방식을 채택을 한다.
현재 PaddleOCR + llama3.2-korean으로 진행하고 있다.
만족스러운 결과값이 안 나와서, github에 push 할 수도 없고, 블로그에 쓸 것도 없다..
Tesseract, easyOCR보다 PaddleOCR이 웹 스크린샷 분석에 효율이 더 좋다는 것도 알았다.
이미지 전처리로만은 정확한 Grounding을 구현할 수 없을 것 같다.
| 문제 가설 세우기 및 고객시장 탐색하기 (0) | 2025.05.02 |
|---|---|
| OCR (0) | 2025.04.30 |
| 네트워킹을 통한 피드백 및 페르소나 정의 (0) | 2025.04.20 |
| OCR 문제 (0) | 2025.04.18 |
| Agent-S agent_s.py (2) | 2025.03.31 |