Как Конвертировать Txt в Excel Python • Чтение файла
Как импортировать данные Excel в скрипты Python с помощью Pandas
Microsoft Excel является наиболее широко используемым программным обеспечением для работы с электронными таблицами в мире, и на то есть веская причина: удобный интерфейс и мощные встроенные инструменты упрощают работу с данными.
Но если вы хотите выполнить более сложную обработку данных, вам нужно выйти за пределы возможностей Excel и начать использовать язык сценариев / программирования, такой как Python. Вместо того, чтобы вручную копировать ваши данные в базы данных, вот краткое руководство о том, как загрузить ваши данные Excel в Python с помощью Pandas.
Примечание. Если вы никогда ранее не использовали Python, этот учебник может оказаться немного сложным. Мы рекомендуем начать с этих сайтов для изучения Python сайтов для изучения программирования на Python сайтов для изучения и эти базовые примеры Python, чтобы начать работу.
Что такое панды?
Библиотека анализа данных Python («Pandas») — это библиотека с открытым исходным кодом для языка программирования Python, которая используется для анализа и манипулирования данными.
Pandas загружает данные в объекты Python, известные как Dataframes , которые хранят данные в строках и столбцах, как в традиционной базе данных. Как только Dataframe создан, им можно манипулировать с помощью Python, открывая целый мир возможностей.
Установка панд
Примечание. Для установки Pandas у вас должен быть установлен Python 2.7 или более поздней версии.
Pandas — это пакет PyPI, что означает, что вы можете установить PIP для Python через командную строку. Современные системы Mac поставляются с PIP. Для других Windows, Linux и более старых систем легко узнать, как установить PIP для Python.
После того, как вы открыли свой терминал, последнюю версию Pandas можно установить с помощью команды:
Пандам также требуется библиотека NumPy, давайте также установим это в командной строке:
Теперь у вас установлена Pandas и вы готовы создать свой первый DataFrame!
Подготовка данных Excel
Для этого примера, давайте использовать образец набора данных: книгу Excel под названием Cars.xlsx .
Этот набор данных отображает марку, модель, цвет и год автомобилей, внесенных в таблицу. Таблица отображается в виде диапазона Excel. Панды достаточно умен, чтобы правильно читать данные.
Эта книга сохраняется в каталоге Desktop, здесь используется путь к файлу:
Вам нужно будет знать путь к файлу книги, чтобы использовать Pandas. Давайте начнем с открытия кода Visual Studio для написания сценария. Если у вас нет текстового редактора, мы рекомендуем либо Visual Studio Code, либо Atom Editor.
Написание скрипта Python
Теперь, когда у вас есть выбор текстового редактора, начинается самое интересное. Мы собираемся собрать вместе Python и нашу рабочую книгу Cars для создания Pandas DataFrame.
Импорт библиотек Python
Откройте ваш текстовый редактор и создайте новый файл Python. Давайте назовем это Script.py .
Для работы с Pandas в вашем скрипте вам необходимо импортировать его в свой код. Это делается с помощью одной строки кода:
Здесь мы загружаем библиотеку Pandas и присоединяем ее к переменной «pd». Вы можете использовать любое имя, какое захотите, мы используем pd как сокращение от Pandas.
Для работы с Excel с использованием Pandas вам необходим дополнительный объект с именем ExcelFile . ExcelFile встроен в экосистему Pandas, поэтому вы импортируете напрямую из Pandas:
Работа с путем к файлу
Чтобы предоставить Pandas доступ к вашей книге, вам нужно направить свой скрипт в местоположение файла. Самый простой способ сделать это — предоставить вашему сценарию полный путь к книге.
Вспомните наш путь в этом примере: /Users/grant/Desktop/Cars.xlsx
Вам потребуется этот путь к файлу, указанный в вашем скрипте, для извлечения данных. Вместо того чтобы ссылаться на путь внутри функции Read_Excel, сохраняйте код чистым, сохраняя путь в переменной:
Теперь вы готовы извлечь данные с помощью функции Pandas!
Извлечение данных Excel с помощью Pandas.Read_Excel ()
После импорта Pandas и установки переменной пути теперь вы можете использовать функции в объекте Pandas для выполнения нашей задачи.
Функция, которую вам нужно будет использовать, имеет соответствующее имя Read_Excel . Функция Read_Excel берет путь к файлу книги Excel и возвращает объект DataFrame с содержимым книги. Панды кодируют эту функцию как:
Аргумент «путь» будет путем к нашей книге Cars.xlsx, и мы уже установили строку пути к переменной Cars_Path.
Вы готовы создать объект DataFrame! Давайте соберем все вместе и установим объект DataFrame в переменную с именем «DF»:
Наконец, вы хотите просмотреть DataFrame, поэтому давайте распечатаем результат. Добавьте оператор print в конец вашего скрипта, используя переменную DataFrame в качестве аргумента:
Запуск скрипта Python
Откройте свой терминал или командную строку и перейдите в каталог, в котором находится ваш скрипт. В этом случае у меня есть «Script.py», расположенный на рабочем столе. Чтобы выполнить скрипт, используйте команду python, за которой следует файл скрипта:
Python вытянет данные из «Cars.xlsx» в ваш новый DataFrame и распечатает DataFrame в терминал!
Пристальный взгляд на объект DataFrame
На первый взгляд, DataFrame выглядит очень похоже на обычную таблицу Excel. В результате Pandas DataFrames легко интерпретировать.
Ваши заголовки помечены в верхней части набора данных, и Python заполнил строки всей вашей информацией, прочитанной из книги «Cars.xlsx».
Обратите внимание на крайний левый столбец, индекс начинается с 0 и нумеруется. Pandas будет применять этот индекс к вашему DataFrame по умолчанию, что может быть полезно в некоторых случаях. Если вы не хотите, чтобы этот индекс генерировался, вы можете добавить дополнительный аргумент в ваш код:
Установка аргумента «index» в значение False приведет к удалению столбца индекса, в результате чего останутся только ваши данные Excel.
Делать больше с Python
Теперь, когда у вас есть возможность читать данные из таблиц Excel, вы можете применять программирование на Python любым способом, который выберете. Работа с Pandas — это простой способ для опытных программистов на Python работать с данными, хранящимися в книгах Excel.
Простота использования Python для анализа и манипулирования данными является одной из многих причин, почему Python является языком программирования будущего
Python: Работа с текстовыми файлами | Интернет сегодня | Яндекс Дзен
- построчное считывание с разбиением и преобразованием типов
- использование библиотек, которые средствами других языков (например, C/C++) считывают файл и передают полученные данные интерпретатору Python
Несмотря на то, что Fortran считается устаревшим языком, он все еще очень популярен в научном программировании благодаря простоте написания кода, скорости обмена данных и обширном количестве библиотек, созданных за последние полвека.
Делать больше с Python
Также нам может понадобиться определить, какие из ячеек в таблице являются объединёнными. Стандартной функции для этого нет, однако мы можем воспользоваться тем, что нам доступно положение ячейки от каждого из краев таблицы:
Публикуя свою персональную информацию в открытом доступе на нашем сайте вы, даете согласие на обработку персональных данных и самостоятельно несете ответственность за содержание высказываний, мнений и предоставляемых данных. Мы никак не используем, не продаем и не передаем ваши данные третьим лицам.