팬더 큐컷

Paendeo Kyukeos



'Python'에는 많은 라이브러리가 포함되어 있으며 데이터를 분석하거나 조작할 때 이러한 'Python' 라이브러리를 활용하고 'pandas'도 그 라이브러리입니다. 'pandas' 라이브러리는 데이터 과학 분야에서 사용되며 기계 학습 활동에도 사용됩니다. 'pandas' DataFrame은 데이터를 저장하는 데 도움이 됩니다. 'pandas'에서는 데이터 비닝을 원할 때 'qcut()' 메서드를 사용합니다. 'qcut()' 메서드는 연속적인 특징을 범주형 특징으로 변환하는 데 사용됩니다. 다양한 유형의 결과를 얻기 위해 이 'qcut()' 메소드에 다양한 유형의 매개변수를 추가할 수 있습니다. 이 튜토리얼은 'qcut()' 메소드에 관한 것이며, 여기서 'qcut()' 메소드에 대해 자세히 설명하겠습니다. 이 튜토리얼에서 'pandas'의 'qcut()' 함수를 사용하여 데이터 비닝을 수행하는 방법을 설명합니다.'

예 # 01

이 코드에 'qcut()' 메서드를 적용하고 'Spyder' 앱에서 이 코드를 수행합니다. 'pandas'로 작업해야 할 때 'pandas' 라이브러리를 코드로 가져올 때만 해당 기능에 액세스할 수 있습니다. 먼저 'import'를 입력한 다음 'pandas as pd'를 작성합니다. 이제 'qcut()' 메서드를 적용해야 하므로 여기에서 DataFrame을 생성합니다. 'R_ID, R_name, R_age'를 열로 포함하는 'Random_df'를 구성하고 'R_ID'에도 'R_17, R_21, R_24, R_29, R_31, R_34, R_44, R_46, R_50, R_51, R_55, R_61, R_73 및 R_81”. 그런 다음 'R_name' 열에 'Theodore, Teddy, Noah, Leo, Ivy, Henry, Freddie, Evelyn, Ava, Willow, Theo, Oscar, Jacob 및 Harper'를 추가합니다. 그런 다음 'R_age' 열에 '21, 33, 12, 43, 22, 7, 21, 51, 72, 19, 10, 9, 37, 40'을 삽입합니다. 이제 'Random_df'가 포함된 'print()'를 사용하고 'Random_df' DataFrame을 렌더링하는 데 도움이 됩니다. DataFrame을 생성하고 아직 'qcut()' 메서드를 적용하지 않았습니다.








'실행' 아이콘은 코드를 실행하는 데 도움이 됩니다. 이 '실행' 아이콘을 누르면 이 코드의 결과가 'Spyder' 앱의 터미널에 표시됩니다. 'Random_df' DataFarme는 이 예제에서 작성한 코드의 결과로 표시됩니다. 이제 'qcut()' 메서드를 적용하고 그 결과도 보여줍니다.




여기에서 데이터를 비닝합니다. 'R_age' 열을 비닝하고 데이터 비닝에 도움이 되는 'pandas' 메소드인 'pd.qcut()' 메소드를 배치합니다. 이 메소드에서는 DataFrame의 이름과 이 'qcut()' 메소드를 적용하려는 열 이름을 삽입합니다. 또한 'q'의 값을 '5'로 설정하고 'R_age' 열의 데이터를 동일한 5분위수로 자르는 데 사용됩니다. 'print()'에 'qcut()' 메서드를 추가하여 터미널에 비닝 데이터도 표시합니다.




여기에 binning 후 데이터가 표시되며 'R_age'를 5분위수로 자릅니다. 또한 'R_age' 열 데이터가 구간화되는 범주를 표시합니다. 범주형 계열은 'R_age' 빈을 나타냅니다.






이러한 저장소의 레이블을 조정할 수도 있습니다. 해석하기 쉽도록 이러한 빈 레이블을 추가합니다. 이러한 빈의 레이블을 추가하는 'Random_df'에 'R_age_qcut' 열을 추가합니다. 레이블을 지정하기 위해 'pd.qcut()' 메서드를 다시 사용합니다. 우리는 '작은, 그다지 작지 않은, 보통, 높음, 가장 높음'이라는 레이블을 추가합니다. 그런 다음 'print()'에 'Random_df'를 다시 넣습니다.


모든 빈에는 레이블이 지정되고 이 결과에 표시됩니다. 'R_age_qcut' 열은 레이블이 지정된 빈이 표시되는 이 DataFrame에 표시됩니다.



예 # 02

DataFrame을 생성하기 위해 먼저 '3, 6, 8, 7, 2, 5, 1, 9, 4, 7, 8'인 '등급'을 추가합니다. 그런 다음 '학생'에 학생 이름을 추가합니다. 'Peter, Bromley, James, David, Allies, John, James, Samuel, William, Howard, and Alexander'입니다. 그런 다음 'pd.DataFrame()' 메서드를 추가한 'Grades_df'를 생성하고 이 메서드에서 열 이름으로 나타날 'Std_name'을 입력하고 'students' 값을 할당합니다. 그런 다음 'Students_grades'를 DataFrame의 열 이름으로 설정하고 위에서 만든 '등급'도 여기에 할당합니다. 그 다음에는 인쇄를 위해 'Grades_df'를 추가하는 'print()'가 있습니다.


두 개의 열을 포함하는 DataFrame이 이 코드의 결과에 표시됩니다. 이제 이 열 값의 데이터를 비닝하기 위해 'Students_grades' 열에 'qcut()' 메서드를 적용합니다.


여기에 'Students_grades' 열에 'pd.qcut()'을 적용한 새 열 'grade'를 추가하고 'q' 값에 '4'를 사용하여 데이터를 4개의 동일한 분위수로 나눕니다. 그런 다음 '0, .4, .8 및 1'인 'q'에 값을 배치하여 여기에서 이러한 분위수를 지정합니다. 그런 다음 이것도 표시합니다. 이제 이러한 비닝된 데이터에 레이블을 지정하고 여기에 추가하는 레이블은 'D, C, A 및 B'이며 '등급' 열에도 저장됩니다.


여기에서 구간화 후 데이터는 여기 '등급' 열에 표시되고 '학생_등급' 열의 데이터를 4개의 동일한 분위수로 자릅니다.


'qcut()' 메서드를 적용하고 분위수를 지정한 후 얻은 DataFrame이 이 결과에 표시됩니다.


이제 이러한 빈에 레이블을 추가한 후 '등급' 열의 이 결과에서도 렌더링되며 빈 값에 따라 레이블을 할당하는 것을 볼 수 있습니다.

예 # 03

CSV 파일의 데이터에 'qcut()' 메서드를 적용할 수도 있습니다. 이를 위해 먼저 'read_csv()' 메서드를 사용하여 CSV 파일의 데이터를 읽습니다. 우리는 'office2.csv' 파일의 데이터를 읽고 있으며, 이 파일의 데이터는 'Office_df'에 저장됩니다. 이 방법은 'office2' 파일의 데이터를 DataFrame으로 변환하여 'Office_df'에 저장합니다. 그런 다음 'print()'에 'Office_df'를 넣어 이 데이터도 표시합니다. 그런 다음 'Units_qcut'이라는 새 열을 추가하고 '단위' 열에 'pd.qcut()' 함수를 적용합니다.

또한 'q' 변수의 값을 '5'로 설정하여 데이터를 5개의 동일한 분위수로 나눕니다. 데이터는 5등분위수로 자른 후 'Units_qcut' 열에 저장되고 이 열은 'Office_df'에도 추가되고 'print()'를 사용하여 여기에서 다시 렌더링된 'Office_df'도 추가됩니다. 이제 이러한 비닝된 데이터에 라벨을 지정하고 'qcut()' 메서드에 'Unit 1, Unit 2, Unit 3, Unit 4 및 Unit 5'라는 라벨을 추가하고 'Labels' 열에도 저장합니다. . 또한 'Labels' 열이 추가된 이 DataFrame을 렌더링합니다.


'office2.csv' 파일을 읽은 후 얻은 데이터는 여기에서 DataFrame 형식으로 렌더링됩니다. 그런 다음 'Units_qcut' 열이 추가되고 'Units' 열의 구간화된 값이 표시됩니다. 그런 다음 '레이블' 열도 추가되어 이러한 비닝된 값에 레이블을 할당합니다. 이것은 모두 'pandas'의 'qcut()' 메서드를 사용하여 수행됩니다.

결론

이 튜토리얼에서 'pandas'의 데이터를 비닝하는 데 도움이 되는 'qcut()' 메서드를 자세히 설명했습니다. 우리는 'qcut()' 메서드에서 추가한 quantile 'q' 값에 따라 데이터가 비닝된다는 것을 논의했으며, 또한 이러한 비닝된 데이터에 레이블을 조정했습니다. 'qcut()' 메서드를 탐색하여 DataFrame의 열에 이 메서드를 적용했으며 CSV 파일을 읽은 후 이 'qcut()' 메서드를 CSV 파일의 데이터에 적용했습니다. 'qcut()' 메소드의 결과를 명확하게 설명하고 보여주기 위해 이 튜토리얼에서 모든 코드의 결과를 제시했습니다.