ChatGTP 없었을 때는 어떻게 살았었는지...ㅋㅋ
- 이번에도 도움이라기 보다는 그냥 베끼기 ㅎㅎ
질문> linux에서 pdf를 text로 변경하는 방법
Linux에서 PDF 파일을 텍스트로 변경하는 방법에는 여러 가지 도구를 사용할 수 있습니다. 다음은 몇 가지 일반적인 방법입니다.
1. pdftotext 사용하기
pdftotext는 Linux에서 PDF 파일을 텍스트 파일로 변환할 수 있는 가장 인기 있는 명령어 도구입니다. 이 도구는 기본적으로 대부분의 Linux 배포판에서 제공됩니다.
설치:
- Debian/Ubuntu 기반 시스템에서는 다음 명령어로 poppler-utils 패키지를 설치할 수 있습니다.
-
bash복사sudo apt-get install poppler-utils
- RedHat/CentOS/Fedora에서는:
-
bash복사sudo yum install poppler-utils
사용법:
- PDF 파일을 텍스트로 변환하려면 다음 명령어를 사용합니다:
- input.pdf: 변환할 PDF 파일 이름
- output.txt: 변환된 텍스트를 저장할 파일 이름
-
bash복사pdftotext input.pdf output.txt
- 텍스트 파일을 표준 출력으로 출력하려면 output.txt를 생략할 수 있습니다:
-
bash복사pdftotext input.pdf -
- 특정 페이지 범위를 텍스트로 변환하려면:
- -f 2: 2페이지부터 시작
- -l 5: 5페이지까지
-
bash복사pdftotext -f 2 -l 5 input.pdf output.txt
2. poppler-utils의 다른 도구들
poppler-utils 패키지에는 PDF 파일을 처리하는 여러 도구들이 포함되어 있습니다. 그 중 pdftohtml이나 pdfinfo도 유용할 수 있습니다.
- pdfinfo: PDF의 메타데이터를 확인할 수 있습니다.
-
bash복사pdfinfo input.pdf
- pdftohtml: PDF 파일을 HTML로 변환하여 더 나은 가독성을 얻을 수 있습니다.
-
bash복사pdftohtml input.pdf output.html
3. Python을 사용하여 PDF 텍스트 추출하기
Python을 사용하여 PDF 파일을 텍스트로 변환하는 방법도 있습니다. PyPDF2 또는 pdfplumber와 같은 라이브러리를 사용할 수 있습니다.
PyPDF2 사용 예:
- 먼저 PyPDF2를 설치합니다:
-
bash복사pip install PyPDF2
- Python 코드로 PDF 파일을 텍스트로 변환합니다:
-
python복사import PyPDF2 with open('input.pdf', 'rb') as file: reader = PyPDF2.PdfReader(file) text = '' for page in reader.pages: text += page.extract_text() with open('output.txt', 'w') as output_file: output_file.write(text)
pdfplumber 사용 예:
pdfplumber는 PyPDF2보다 더 정밀한 텍스트 추출이 가능합니다.
- 먼저 pdfplumber를 설치합니다:
-
bash복사pip install pdfplumber
- PDF에서 텍스트를 추출하는 Python 코드:
-
python복사import pdfplumber with pdfplumber.open("input.pdf") as pdf: text = '' for page in pdf.pages: text += page.extract_text() with open("output.txt", "w") as output_file: output_file.write(text)
4. OCR (광학 문자 인식) 도구 사용하기
PDF 파일이 이미지로 되어 있다면, 텍스트를 추출하려면 OCR(광학 문자 인식) 기술을 사용해야 합니다. Tesseract는 Linux에서 사용할 수 있는 강력한 OCR 도구입니다.
설치:
사용법:
- PDF 파일을 이미지로 변환한 후 Tesseract를 사용하여 텍스트를 추출할 수 있습니다.
bash복사pdftoppm input.pdf output -png tesseract output-1.png output.txt
위의 방법 중에서 PDF 파일의 내용과 구조에 맞는 방법을 선택하여 텍스트로 변환할 수 있습니다. pdftotext는 빠르고 간단한 방법이지만, 이미지 기반 PDF에는 Tesseract와 같은 OCR 도구가 필요할 수 있습니다.
진행 : Tool 설치(ubuntu 20.04.6 LTS (Focal Fossa))
apt-get install poppler-utils -y
진행 2 : pdftotext
pdftotext NEW-3.TTAK.KO-06.0541.R1.pdf NEW-3.TTAK.KO-06.0541.R1.txt
이번에도 잘 되네요~~~ ㅎㅎ
![](https://t1.daumcdn.net/keditor/emoticon/friends1/large/003.gif)
ChatGTP는 또 사랑입니다. ㅎㅎ
'프로...Linux' 카테고리의 다른 글
gvim 한글 설정 (0) | 2025.01.21 |
---|---|
ubuntu 18 신규 설치 (0) | 2023.12.22 |
MySQL 몰아보기 (0) | 2021.06.15 |
[Util-Script] mytop (0) | 2019.10.18 |
[Threads] 속성 및 내용 정리 (0) | 2019.09.19 |