Появилась новая библиотека Pandas AI - надстройка над популярной библиотекой для анализа данных Pandas.
Для тех, кто не знает, Pandas - программная библиотека, написанная для языка программирования Python для обработки и анализа данных. В частности, Pandas предлагает структуры данных и операции для работы с числовыми таблицами и временными рядами. Сама Pandas бесплатна для использования.
Как уверяют разработчики, Pandas AI в свою очередь расширяет возможности Pandas за счет искусственного интеллекта.
Ниже краткое обзор.
Принцип работы Pandas AI
В редакторе кода задаете любой вопрос про данные на естественном языке и без написания кода получаете готовый ответ по вашим данным.
Какие вопросы можно задать? Любые вопросы, связанные с подготовкой, очисткой данных, визуализацией, исследовательским анализом данных, машинным обучением и т.д.
Простой пример, если спросить про данные о зарплате: "Кто в компании зарабатывает больше?". Pandas AI ответит: "Оливия зарабатывает больше".import pandas as pd from pandasai import PandasAI employees_data = { 'EmployeeID': [1, 2, 3, 4, 5], 'Name': ['John', 'Emma', 'Liam', 'Olivia', 'William'], 'Department': ['HR', 'Sales', 'IT', 'Marketing', 'Finance'] } salaries_data = { 'EmployeeID': [1, 2, 3, 4, 5], 'Salary': [5000, 6000, 4500, 7000, 5500] } employees_df = pd.DataFrame(employees_data) salaries_df = pd.DataFrame(salaries_data) llm = OpenAI() pandas_ai = PandasAI(llm) pandas_ai([employees_df, salaries_df], "Who gets paid the most?")
Приведенный выше код вернет следующее:Oh, Olivia gets paid the most.
А вот пример с визуализацией. Просим построить гистограмму стран, показывающую ВВП для каждой страны, используя разные цвета для каждого столбца.pandas_ai( df, "Plot the histogram of countries showing for each the gdp, using different colors for each bar", )
Получаем:
Если примеров мало, то вот еще один Пример использования библиотеки Pandas AI в Google Colab.
Как установить?
Как и любую другую библиотеку, инструкции есть на github. Отличие в том, что вам понадобится ключ API OpenAI. API платное, но есть бесплатный период на 1 месяц без привязки карты.
Если возникает вопрос по поводу безопасности данных - в случае подключения API Open AI клянется не использовать ваши данные для обучения.
Когда я услышала про Pandas AI, идея подобной библиотеки меня заинтересовала. Однако после изучения различных статей, я пришла к выводу, что пока не буду ее использовать.
Почему я не спешу устанавливать Pandas AI?
Сами разработчики предупреждают, что весь фрейм данных каждый раз передается вместе с вопросом, поэтому решение не идеально для обработки больших наборов данных. Кроме того, что скорее всего все будет тормозить, придется платить больше за API OpenAI.
Pandas AI дает готовый ответ без кода и пояснений. Сомнительно, правда? Такому ответу я не смогу доверять, ведь я даже не смогу проверить код. Мне кажется, разработчики не разобрались, кто является их целевой аудиторией.
Можно спросить у ChatGPT почти тоже самое. Да, будут сложности с загрузкой данных в ChatGPT (хотя по-моему уже есть какое-то решение и это проблемы), плюс сама загрузка в ChatGPT не безопасна, но никто не отменяет просто попросить написать код для какого-то конкретного случая. Кроме того есть много расширений для того же VSC, которые практически пишут код за тебя.
API OpenAI платное. И дело даже не в том, что нужно платить, а в том, что я с узбекской карты не могу его оплатить.
В последнее время выпускается много надстроек с использованием OpenAI, уже не успеваю следить, но почти как всегда сыро и надо дорабатывать.
Если вы пробовали - поделитесь, как вам?
Мой телеграм канал по аналитике Аналитика и growth mind-set.
Источник новости: habr.com