Search
Duplicate

한글PDF를 영어PDF한방변환 비교

목차(클릭하세요)
3가지 방식: DeepL, 구글 Gems, 안티그래비티 과연 무엇이 가장 정확한 번역이 가능할까? 실험 결과: 완벽한 번역tool는 아직 없는 걸
오늘의 테스트 문서는 GPT의 조상님! 바로 attention영어논문
이미 한글로 번역된 자료가 많지만 테스트를 위해 어느 정도 용량이 있는 영어논문pdf를 활용해보기

1. DeepL

1-1. 결과

attention논문_deepL번역.pdf
950.1 KiB
일단 제목부터 “잉?”하는 느낌이 물씬.
아래 처럼 ‘ Multi-Head Attention ’이란 동일한 단어를 어떤때는 다중헤드 어텐션, 또 어떤 경우에는 멀티헤드 어텐션으로 즉 통일감없이 번역하는 부분이 일부 발견됨

1-2.아쉬운점

pdf 번역 하나로 한달간 사용가능한 토큰을 모조리 소비하는 듯
좋은점?
이미지 속의 영어 단어도 한글로 어느정도 완벽하게 번역해줌, 무엇보다 틀이 깨지지 않음
[원문]
[번역본]

2. 구글

2-1. SuperGems(with opal)

[예시]프롬프트
영어 pdf파일 전체를 입력으로 받아, gemini의 우수한 번역성능을 활용해 한글 pdf 로 변환하는 앱
Markdown
복사
초안으로 만들어진 opal의 노드를 점검 해서 프롬프트를 보다 명확하게 강화하였음
[초안] 가장 중요한 부분은 역시나 중간 단계이므로 해당 프롬프트를 확인하여 수정하기
[프롬프트 변경 전]
당신은 영어-한국어 번역에 특화된, 뛰어난 실력과 풍부한 경험을 갖춘 번역가입니다. 당신의 임무는 제공된 영어 PDF 파일의 전체 내용을 원문의 모든 정보를 그대로 유지하면서 유창하고 자연스러운 한국어로 번역하는 것입니다. # 단계별 지침 1. 영어 PDF 파일에서 텍스트 내용을 추출합니다. 2. 추출한 영어 PDF 파일 내용 중 일부를 선택하여 유창하고 자연스러운 한국어로 번역합니다. 3. 번역된 한국어 부분을 검토합니다. 영어 PDF 파일의 전체 내용이 원문의 모든 정보를 그대로 유지하면서 유창하고 자연스럽게 번역되었는지 확인합니다. 그렇지 않다면 2단계로 돌아가 번역되지 않은 다음 부분을 번역합니다. 4. 최종 한국어 번역본을 출력합니다.
Markdown
복사
[프롬프트 변경 후 ]
당신은 영어-한국어 번역에 특화된, 뛰어난 실력과 풍부한 경험을 갖춘 번역가입니다. 당신의 임무는 제공된 영어 PDF 파일의 전체 내용을 원문의 모든 정보를 그대로 유지하면서 유창하고 자연스러운 한국어로 번역하는 것입니다. # 단계별 지침 1. 영어 PDF 파일에서 텍스트 내용을 추출합니다. 2. 추출한 영어 PDF 파일의 텍스트를 학술적으로 정확하고, 오해를 불러일으키지 않은 정확한 한국어로 번역합니다. 3. 만약 번역하기 어렵거나, 적절한 단어가 없을 경우 영어단어원문을 그대로 한글로 번역합니다. - 예시: multihead attenton를 '멀티헤드 어텐션'으로 4. 번역된 한국어를 면밀히 검토합니다. 영어 PDF 파일의 전체 내용이 원문의 모든 정보를 그대로 유지하면서 유창하고 자연스럽게 번역되었는지 확인합니다. 그렇지 않다면 2단계로 돌아가 번역되지 않은 다음 부분만 다시 번역합니다. 5. 최종 한국어 번역본을 출력합니다. 6. 번역시 모호했던 단어를 정리하여 화면에 출력합니다. English Pdf File: """ {{"type": "in", "path": "ask_user_english_pdf_file", "title": "English Pdf File"}} """ IMPORTANT NOTE: Start directly with the output, do not output any delimiters. Output:
Markdown
복사
특히, 번역모델에 사용되는 모델이 기본적으로 gemini-2.5로 선택되어있다면 이를 3.0모델로 반드시 변경하고 싶으나 해보면 안됨.
opal 사용량 제한으로 작동이 멈춤
다른 계정에서 작업 결과를 확인해봄, 또 막힘.
영어 원본pdf가 15페이지이기에 3.0모델이 아닌 2.5모델로 다운그레이드해야 opal작동
더큰 문제는 pdf파일 자체로 변환이 되지 않음 이는 Gemini에서도 마찬가지
접자..

2-2.구글 번역

구글 번역에서 ‘문서’를 선택한 후 pdf 통째 변환
[결과물]

2-3.결과물

attention논문_구글번역.pdf
831.9 KiB
앗! 이것도 퀄리티가 만만치 않게 구리구리뱅뱅
대신 단어의 일관성은 잘 유지되고 있는 듯
이미지 속의 영어 단어도 한글로 번역할때 틀이 깨짐
[원문]
DeepL보다 못하다.. 접자..

3. 안티그래비티

우리의 마지막 희망 안티 그래비티
멀티 에이전트 특화 바이브코딩툴로만 안티그래비티를 낮춰볼수 없음.
멀티 에이전트로 모조리 자동화할 수 있다면?

3-1. 안티 그래비티의 워크플로우로 생성

[예시] 지침
당신은 영어-한국어 번역에 특화된, 뛰어난 실력과 풍부한 경험을 갖춘 번역가입니다. 당신의 임무는 제공된 영어 PDF 파일의 전체 내용을 원문의 모든 정보를 그대로 유지하면서 유창하고 자연스러운 한국어로 번역하는 것입니다. # 단계별 지침 1. 영어 PDF 파일에서 텍스트 내용을 추출합니다. 2. 추출한 영어 PDF 파일의 텍스트를 학술적으로 정확하고, 오해를 불러일으키지 않은 정확한 한국어로 번역합니다. 3. 만약 번역하기 어렵거나, 적절한 단어가 없을 경우 영어단어원문을 그대로 한글로 번역합니다. - 예시: multihead attenton를 '멀티헤드 어텐션'으로 4. 번역된 한국어를 면밀히 검토합니다. 영어 PDF 파일의 전체 내용이 원문의 모든 정보를 그대로 유지하면서 유창하고 자연스럽게 번역되었는지 확인합니다. 그렇지 않다면 2단계로 돌아가 번역되지 않은 다음 부분만 다시 번역합니다. 5. 최종 한국어 번역본을 출력합니다. 6. 번역시 모호했던 단어를 정리하여 화면에 출력합니다. 최종적으로 번역된 pdf파일을 생성해주는 워크플로우를 만들자 #input폴더에 들어있는 pdf 를 작업해서 최종 결과물을 output폴더에 저장할 수 있도록
Plain Text
복사
대략적으로 이런 워크 플로우 지침이 .md파일로 생성됨
pdf 파일이 클때 할당량 이슈가 발생할 수 있으므로 API키를 무작정 활용하기보단, deep-translator을 활용해 API키 호출없이 번역 진행
deep-translator: Python에서 여러 번역 서비스를 하나의 통합된 인터페이스로 사용할 수 있게 해주는 오픈소스 라이브러리
# PDF 영어-한국어 번역 워크플로우 이 워크플로우는 **원본 PDF의 이미지와 도표를 완벽하게 유지**하면서, 영문 텍스트만 한국어로 번역하여 동일한 위치에 덧씌우는 과정을 안내합니다. **주요 특징:** - ✅ API 키 불필요 (deep-translator 사용) - ✅ 할당량 제한 없음 - ✅ 원본 이미지/도표 완벽 보존 - ✅ 레이아웃 유지 ## 사전 준비사항 1. Python이 설치되어 있어야 합니다 2. 필요한 라이브러리: - PyMuPDF (PDF 레이아웃 보존 및 수정) - deep-translator (무료 Google 번역) - python-dotenv (환경 변수 관리) ## 단계별 실행 ### 0. 환경 준비 프로젝트 루트 디렉토리에 `input` 폴더와 `output` 폴더가 있는지 확인합니다. - `input`: 번역할 원본 영문 PDF 파일들을 넣는 곳 - `output`: 번역이 완료된 한국어 PDF 파일들이 저장되는 곳 ### 1. 필요한 Python 라이브러리 설치 ```bash pip install pymupdf deep-translator python-dotenv ``` ### 2. 번역 프로세스 이해 이 도구는 **레이아웃 보존형 텍스트 오버레이** 번역을 수행합니다: 1. **텍스트 블록 분석**: PDF 내부의 텍스트 위치(좌표)를 정확히 추출합니다. 2. **고유 레이아웃 보존**: 원본 PDF의 이미지, 그래프, 도표 등 객체는 그대로 유지합니다. 3. **텍스트 덧씌우기**: 영문 텍스트 영역을 흰색 처리한 후, 그 위에 번역된 한국어를 배치합니다. 4. **무료 번역**: deep-translator(Google Translate)를 사용하여 API 키 없이 번역합니다. ### 3. 번역 실행 ```bash # 폴더 내 모든 PDF 번역 python translate_pdf.py input output # 단일 파일 번역 python translate_pdf.py input/example.pdf output/example_kr.pdf ``` ### 4. 결과 확인 - `output` 폴더에서 번역된 PDF 파일들 확인 - 원본과 비교하여 이미지/레이아웃이 유지되었는지 확인 - 번역 품질 검토 ## 주요 기능 1. **레이아웃 보존**: PyMuPDF를 사용하여 원본 PDF의 구조를 그대로 유지 2. **이미지 유지**: 논문의 그래프, 다이어그램, 수식 이미지 등이 그대로 보존됨 3. **무료 번역**: deep-translator를 사용하여 API 키나 비용 없이 번역 4. **배치 처리**: 폴더 내 여러 PDF를 한 번에 처리 가능 5. **한글 폰트 자동 감지**: Windows의 맑은 고딕, 굴림, 바탕 등 자동 로드 ## 참고사항 - 대용량 PDF의 경우 페이지별로 순차 처리됩니다 - 한글 폰트가 설치되어 있어야 한글이 정상적으로 표시됩니다 - 인터넷 연결이 필요합니다 (Google Translate 사용)
Markdown
복사
번역과정 확인
생각보다 상당한 시간이 소요됨
15페이지 pdf를 번역하는데 기본적으로 한 10분 정도 걸린 듯 함
[결과물 확인]
처음에는 이미지가 표시되지 않았다가, 그 후에는 다시 글자만 표시되었다가 약 1시간? 정도의 사투끝에 어느정도 완성된 워크플로우를 얻을 수 있었는데 결국 망했음..ㅠㅠ
PDF의 영어 내용을 한글로 번역하는 것은 잘 되나 이미지까지 포함된 레이아웃을 유지하는 것은 아직까지 구현에 어려움이 있음
결론: 접자..

3-2. 실패원인 분석

문제 원인

현재 방식은 텍스트 영역을 흰색으로 덮고 그 위에 한글을 쓰는 방식인데, 이것이:
1.
표(테이블) 내부 텍스트까지 덮어버려서 표가 비어 보임
2.
이미지 영역도 실수로 덮어버림
3.
폰트 크기 계산이 틀림

해결 방안

PDF 내부를 직접 수정하는 것은 매우 불안정
가장 현실적인 방법:원본 페이지를 이미지로 보존 + 번역 텍스트를 별도 페이지로 추가

3-3. 최후의 도전

생각의 전환이 필요했다..
그럼 우리의 워크 플로우를 다음과 같이 수정하면 어떄? PDF의 이미지와 텍스트를 각각 추출한 다음 1. 이미지는 원본 그대로 사용 2. 추출된 영어 텍스트는 한글로 번역 3. 그 다음 논문의 수식은 수식 그대로 사용 이걸 조합하여 pdf가 아닌 다른 형태의 문서로 완성 예를 들면 세로 사이즈의 PPTX파일로 이거 가능하니?
Plain Text
복사
이 방법 안되더라..
진짜 접자..

4. 결론

꼭 pdf형태로 논문을 번역해야 하는가?에 대한 고정관념을 깨면 해결책이 보임
[해결책]우리의 최후의 보루: 릴리스AI
릴리스AI속 전체 번역기능
다 좋은데. 수식이 없어진다..
[Attention is all need you 번역본 최종 2인방]
1순위: DeepL 번역본
attention논문_deepL번역.pdf
950.1 KiB
2순위: lilys AI 번역본
attention논문_lilysai번역.pdf
2.1 MiB