Skyvern에 Ollama로 llama3.2-korean-5B를 넣어서 사용해봤는데, 찾지를 못한다... 아직 Ollama 테스트는 진행되지 않아서 그런 것 같다. BeautifulSoup + palywright + llama3.2-korean-5B 도 사용해봤는데 HTML 가져오고 속성 ID 찾는 것은 시간이 오래 걸렸다. 이것도 후보로 두고, Browser-use + 제미나이 2.0 flash 를 테스트 중이다. notte도 비전처리를 on off 할 수 있어서 테스트 중이다.
OCR 벤치마크가 좋다고 해서, 좌표추출 까지 뛰어난 것은 아니라는 것을 배웠다. 텍스트 추출에서는 높은 성능을 보였지만, 좌표추출에서는 오차범위가 커서 쓸 수 없었다. YOLOv8로 UI 탐지 -> 탐지된 텍스트 OCR로 좌표추출 -> pyautogui를 통해 테스트 해볼까 했지만 YOLOv8 모델을 학습해야 했고, 사이트 UI가 바뀌면 감지하지 못하는 문제가 발생해서 다른 방법을 선택하기로 했다.playwrightGPT -> llama3.2 도 써봤는데 성능이 매우 떨어졌다. 아마 GPT가 아닌 모델을 써서 그런 것 같다. Broswer-use + llama3.2-korean-5B 에서는 출발지는 잘 입력됐지만 도착지에서 문제가 발생하였었다.
매번 테스트를 하고 성능 비교하고 채택할 모델을 찾느냐고 블로그를 잘 못쓰고 있다..
| 알고리즘 문제 (2) | 2025.08.16 |
|---|---|
| MJK 최종 발표 (0) | 2025.08.02 |
| BMC 작성 (0) | 2025.05.08 |
| 린 고객 개발의 핵심 고객인터뷰 (0) | 2025.05.05 |
| 문제 가설 세우기 및 고객시장 탐색하기 (0) | 2025.05.02 |