Как Конвертировать Txt в Excel Python • Чтение файла

Как импортировать данные Excel в скрипты Python с помощью Pandas

Как импортировать данные Excel в скрипты Python с помощью Pandas

Microsoft Excel является наиболее широко используемым программным обеспечением для работы с электронными таблицами в мире, и на то есть веская причина: удобный интерфейс и мощные встроенные инструменты упрощают работу с данными.

Но если вы хотите выполнить более сложную обработку данных, вам нужно выйти за пределы возможностей Excel и начать использовать язык сценариев / программирования, такой как Python. Вместо того, чтобы вручную копировать ваши данные в базы данных, вот краткое руководство о том, как загрузить ваши данные Excel в Python с помощью Pandas.

Примечание. Если вы никогда ранее не использовали Python, этот учебник может оказаться немного сложным. Мы рекомендуем начать с этих сайтов для изучения Python сайтов для изучения программирования на Python сайтов для изучения и эти базовые примеры Python, чтобы начать работу.

Что такое панды?

Библиотека анализа данных Python («Pandas») — это библиотека с открытым исходным кодом для языка программирования Python, которая используется для анализа и манипулирования данными.

Pandas загружает данные в объекты Python, известные как Dataframes , которые хранят данные в строках и столбцах, как в традиционной базе данных. Как только Dataframe создан, им можно манипулировать с помощью Python, открывая целый мир возможностей.

Установка панд

Примечание. Для установки Pandas у вас должен быть установлен Python 2.7 или более поздней версии.

Pandas — это пакет PyPI, что означает, что вы можете установить PIP для Python через командную строку. Современные системы Mac поставляются с PIP. Для других Windows, Linux и более старых систем легко узнать, как установить PIP для Python.

После того, как вы открыли свой терминал, последнюю версию Pandas можно установить с помощью команды:

Пандам также требуется библиотека NumPy, давайте также установим это в командной строке:

Теперь у вас установлена ​​Pandas и вы готовы создать свой первый DataFrame!

Подготовка данных Excel

Для этого примера, давайте использовать образец набора данных: книгу Excel под названием Cars.xlsx .

Таблица Excel для панд Python

Этот набор данных отображает марку, модель, цвет и год автомобилей, внесенных в таблицу. Таблица отображается в виде диапазона Excel. Панды достаточно умен, чтобы правильно читать данные.

Эта книга сохраняется в каталоге Desktop, здесь используется путь к файлу:

Вам нужно будет знать путь к файлу книги, чтобы использовать Pandas. Давайте начнем с открытия кода Visual Studio для написания сценария. Если у вас нет текстового редактора, мы рекомендуем либо Visual Studio Code, либо Atom Editor.

Написание скрипта Python

Теперь, когда у вас есть выбор текстового редактора, начинается самое интересное. Мы собираемся собрать вместе Python и нашу рабочую книгу Cars для создания Pandas DataFrame.

Импорт библиотек Python

Откройте ваш текстовый редактор и создайте новый файл Python. Давайте назовем это Script.py .

Для работы с Pandas в вашем скрипте вам необходимо импортировать его в свой код. Это делается с помощью одной строки кода:

Здесь мы загружаем библиотеку Pandas и присоединяем ее к переменной «pd». Вы можете использовать любое имя, какое захотите, мы используем pd как сокращение от Pandas.

Для работы с Excel с использованием Pandas вам необходим дополнительный объект с именем ExcelFile . ExcelFile встроен в экосистему Pandas, поэтому вы импортируете напрямую из Pandas:

Работа с путем к файлу

Чтобы предоставить Pandas доступ к вашей книге, вам нужно направить свой скрипт в местоположение файла. Самый простой способ сделать это — предоставить вашему сценарию полный путь к книге.

Вспомните наш путь в этом примере: /Users/grant/Desktop/Cars.xlsx

Вам потребуется этот путь к файлу, указанный в вашем скрипте, для извлечения данных. Вместо того чтобы ссылаться на путь внутри функции Read_Excel, сохраняйте код чистым, сохраняя путь в переменной:

Теперь вы готовы извлечь данные с помощью функции Pandas!

Извлечение данных Excel с помощью Pandas.Read_Excel ()

После импорта Pandas и установки переменной пути теперь вы можете использовать функции в объекте Pandas для выполнения нашей задачи.

Функция, которую вам нужно будет использовать, имеет соответствующее имя Read_Excel . Функция Read_Excel берет путь к файлу книги Excel и возвращает объект DataFrame с содержимым книги. Панды кодируют эту функцию как:

Аргумент «путь» будет путем к нашей книге Cars.xlsx, и мы уже установили строку пути к переменной Cars_Path.

Вы готовы создать объект DataFrame! Давайте соберем все вместе и установим объект DataFrame в переменную с именем «DF»:

Наконец, вы хотите просмотреть DataFrame, поэтому давайте распечатаем результат. Добавьте оператор print в конец вашего скрипта, используя переменную DataFrame в качестве аргумента:

Запуск скрипта Python

Откройте свой терминал или командную строку и перейдите в каталог, в котором находится ваш скрипт. В этом случае у меня есть «Script.py», расположенный на рабочем столе. Чтобы выполнить скрипт, используйте команду python, за которой следует файл скрипта:

Python Script In Terminal

Python вытянет данные из «Cars.xlsx» в ваш новый DataFrame и распечатает DataFrame в терминал!

Python DataFrame In Terminal

Пристальный взгляд на объект DataFrame

На первый взгляд, DataFrame выглядит очень похоже на обычную таблицу Excel. В результате Pandas DataFrames легко интерпретировать.

Ваши заголовки помечены в верхней части набора данных, и Python заполнил строки всей вашей информацией, прочитанной из книги «Cars.xlsx».

Обратите внимание на крайний левый столбец, индекс начинается с 0 и нумеруется. Pandas будет применять этот индекс к вашему DataFrame по умолчанию, что может быть полезно в некоторых случаях. Если вы не хотите, чтобы этот индекс генерировался, вы можете добавить дополнительный аргумент в ваш код:

Установка аргумента «index» в значение False приведет к удалению столбца индекса, в результате чего останутся только ваши данные Excel.

Делать больше с Python

Теперь, когда у вас есть возможность читать данные из таблиц Excel, вы можете применять программирование на Python любым способом, который выберете. Работа с Pandas — это простой способ для опытных программистов на Python работать с данными, хранящимися в книгах Excel.

Простота использования Python для анализа и манипулирования данными является одной из многих причин, почему Python является языком программирования будущего

Знайка, самый умный эксперт в Цветочном городе
Мнение эксперта
Знайка, самый умный эксперт в Цветочном городе
Если у вас есть вопросы, задавайте их мне!
Задать вопрос эксперту
С точки зрения программиста на python есть всего 2 типа файлов это текстовый файл с ним программист может взаимодействовать с помощью встроенных средств языка и бинарный файл excel файлы, изображения, видео и т. Если же вы хотите что-то уточнить, я с радостью помогу!
Значения alignment будут соответствовать одному из основных стилей выравнивания: LEFT (0), CENTER (1), RIGHT (2) или JUSTIFY (3). Однако если пользователь не установил стиль выравнивания, значение параметра alignment будет None.

Python: Работа с текстовыми файлами | Интернет сегодня | Яндекс Дзен

  • построчное считывание с разбиением и преобразованием типов
  • использование библиотек, которые средствами других языков (например, C/C++) считывают файл и передают полученные данные интерпретатору Python

Несмотря на то, что Fortran считается устаревшим языком, он все еще очень популярен в научном программировании благодаря простоте написания кода, скорости обмена данных и обширном количестве библиотек, созданных за последние полвека.

Знайка, самый умный эксперт в Цветочном городе
Мнение эксперта
Знайка, самый умный эксперт в Цветочном городе
Если у вас есть вопросы, задавайте их мне!
Задать вопрос эксперту
Параметры будут иметь значение None для случаев, когда пользователь не устанавливал на них галочки, и True, если устанавливал. Если же вы хотите что-то уточнить, я с радостью помогу!
Воспользовавшись этим кодом, можно получить все координаты объединённых ячеек для каждой из таблиц документа. Кроме того, разница координат tc.top и tc.bottom показывает, сколько строк в объединённой ячейке, а разница tc.left и tc.right – сколько столбцов.

Делать больше с Python

Также нам может понадобиться определить, какие из ячеек в таблице являются объединёнными. Стандартной функции для этого нет, однако мы можем воспользоваться тем, что нам доступно положение ячейки от каждого из краев таблицы:

Оставить отзыв

Публикуя свою персональную информацию в открытом доступе на нашем сайте вы, даете согласие на обработку персональных данных и самостоятельно несете ответственность за содержание высказываний, мнений и предоставляемых данных. Мы никак не используем, не продаем и не передаем ваши данные третьим лицам.