Prompt Title: PDF to Excel converter.

Created 1 year ago
Votes 0
Views 467 times
0

Prompt Detail:

Для того, чтобы считывать только вопросы из PDF файла вам необходимо использовать библиотеку Python под названием PyPDF2. Вот пример кода, который позволит вам считывать только текстовые блоки из PDF документа:

arduino
import PyPDF2 pdfFileObj = open('example.pdf', 'rb') pdfReader = PyPDF2.PdfReader(pdfFileObj) text = "" for page in pdfReader.pages: text += page.extract_text() pdfFileObj.close() questions = [] for line in text.split('\n'): if line.endswith('?'): questions.append(line) print(questions)

Данный код открывает PDF файл, извлекает текст из всех страниц и затем проходится по каждой строке текста, чтобы найти только те строки, которые заканчиваются на знак вопроса. Найденные вопросы добавляются в список "questions". Далее вы можете использовать библиотеку pandas, чтобы сохранить этот список в формате Excel:

python
import pandas as pd df = pd.DataFrame(questions, columns=["Questions"]) df.to_excel("questions.xlsx", index=False)

Этот код создает объект DataFrame из списка вопросов и сохраняет его в файл Excel с именем "questions.xlsx".

avatar
agg
Shared 1 prompt
Created 1 year ago

Leave a Comment

Related Tag Prompts

336
0
Excel Expert
1 year ago 2023-01-22 21:26:36 AIPRM
271
0
Python Pro
1 year ago 2023-01-19 05:16:28 AIPRM