Prompt Detail:
Для того, чтобы считывать только вопросы из PDF файла вам необходимо использовать библиотеку Python под названием PyPDF2. Вот пример кода, который позволит вам считывать только текстовые блоки из PDF документа:
arduinoimport PyPDF2
pdfFileObj = open('example.pdf', 'rb')
pdfReader = PyPDF2.PdfReader(pdfFileObj)
text = ""
for page in pdfReader.pages:
text += page.extract_text()
pdfFileObj.close()
questions = []
for line in text.split('\n'):
if line.endswith('?'):
questions.append(line)
print(questions)
Данный код открывает PDF файл, извлекает текст из всех страниц и затем проходится по каждой строке текста, чтобы найти только те строки, которые заканчиваются на знак вопроса. Найденные вопросы добавляются в список "questions". Далее вы можете использовать библиотеку pandas, чтобы сохранить этот список в формате Excel:
pythonimport pandas as pd
df = pd.DataFrame(questions, columns=["Questions"])
df.to_excel("questions.xlsx", index=False)
Этот код создает объект DataFrame из списка вопросов и сохраняет его в файл Excel с именем "questions.xlsx".