Skip to content

Latest commit

 

History

History
13 lines (6 loc) · 965 Bytes

lambda-doc-to-pdf.md

File metadata and controls

13 lines (6 loc) · 965 Bytes

Document를 PDF 파일로 변환하기

RAG에 등록하는 문서로 DOC이나 PDF에서 이미지를 추출할때 문서와 함께 이미지를 추출하는것이 어렵습니다. Multimodal LLM에서 DOC나 PPT의 내용을 같이 분석할 수 있도록 DOC과 PPT문서를 PDF로 변환하고자 합니다.

LibreOffice를 이용하여 문서를 변환

LibreOffice를 이용하여 /tmp에서 문서를 변환합니다. Lambda layer 또는 docker image로 활용할 수 있습니다.

Convert Doc or Docx to pdf using AWS Lambda

Converting Office Docs to PDF with AWS Lambda