pyjanitor-devs · nvamsikrishna05 · Jul 21, 2021 · Jul 18, 2021 · Jul 18, 2021 · Jul 19, 2021
diff --git a/.requirements/base.in b/.requirements/base.in
@@ -4,5 +4,4 @@
 natsort
 # seaborn
 pandas_flavor
-scikit-learn
 multipledispatch
diff --git a/.requirements/base.txt b/.requirements/base.txt
@@ -1,22 +1,18 @@
 #
-# This file is autogenerated by pip-compile
+# This file is autogenerated by pip-compile with python 3.8
 # To update, run:
 #
 #    pip-compile ./.requirements/base.in
 #
-joblib==0.17.0            # via scikit-learn
-natsort==7.0.1            # via -r ./.requirements/base.in
-numpy==1.19.2             # via pandas, scikit-learn, scipy, xarray
-pandas-flavor==0.2.0      # via -r ./.requirements/base.in
-pandas==1.1.3             # via pandas-flavor, xarray
-python-dateutil==2.8.1    # via pandas
-pytz==2020.1              # via pandas
-scikit-learn==0.23.2      # via sklearn
-scipy==1.5.3              # via scikit-learn
-six==1.15.0               # via python-dateutil
-sklearn==0.0              # via -r ./.requirements/base.in
-threadpoolctl==2.1.0      # via scikit-learn
-xarray==0.16.1            # via pandas-flavor
+multipledispatch==0.6.0         # via -r ./.requirements/base.in
+natsort==7.0.1                  # via -r ./.requirements/base.in
+numpy==1.19.2                   # via pandas xarray
+pandas==1.1.3                   # via pandas-flavor xarray
+pandas-flavor==0.2.0            # via -r ./.requirements/base.in
+python-dateutil==2.8.1          # via pandas
+pytz==2020.1                    # via pandas
+six==1.15.0                     # via multipledispatch python-dateutil
+xarray==0.16.1                  # via pandas-flavor
 
 # The following packages are considered to be unsafe in a requirements file:
 # setuptools
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -6,6 +6,8 @@
 -   [INF] Update pre-commit hooks and remove mutable references. Issue #844. @loganthomas
 -   [INF] Add GitHub Release pointer to auto-release script. Issue #818. @loganthomas
 -   [INF] Updated black version in github actions code-checks to match pre-commit hooks. @nvamsikrishna05
+-   [ENH] Updated `label_encode` to use pandas factorize instead of scikit-learn LabelEncoder. @nvamsikrishna05
+-   [INF] Removed the scikit-learn package from the dependencies from environment-dev.yml and base.in files. @nvamsikrishna05
 
 ## [v0.21.0] - 2021-07-16
 

diff --git a/environment-dev.yml b/environment-dev.yml
@@ -42,7 +42,6 @@ dependencies:
 - python-language-server
 - rdkit
 - recommonmark
-- scikit-learn
 - seaborn
 - sphinx
 - sphinxcontrib-fulltoc

diff --git a/janitor/functions.py b/janitor/functions.py
@@ -31,7 +31,6 @@
 from pandas.api.types import is_bool_dtype, is_list_like, union_categoricals
 from pandas.errors import OutOfBoundsDatetime
 from scipy.stats import mode
-from sklearn.preprocessing import LabelEncoder
 
 from .errors import JanitorError
 from .utils import (
@@ -778,24 +777,23 @@ def label_encode(
         or tuple) of column names.
     :returns: A pandas DataFrame.
     """
-    df = _label_encode(df, column_names)
+    warnings.warn("label_encode will be deprecated in a 1.x release")
+    df = _factorize(df, column_names, "_enc")
     return df
 
 
-@dispatch(pd.DataFrame, (list, tuple))
-def _label_encode(df, column_names):
-    le = LabelEncoder()
+@dispatch(pd.DataFrame, (list, tuple), str)
+def _factorize(df, column_names, suffix, **kwargs):
     check_column(df, column_names=column_names, present=True)
     for col in column_names:
-        df[f"{col}_enc"] = le.fit_transform(df[col])
+        df[f"{col}{suffix}"] = pd.factorize(df[col], **kwargs)[0]
     return df
 
 
-@dispatch(pd.DataFrame, str)  # noqa: F811
-def _label_encode(df, column_names):  # noqa: F811
-    le = LabelEncoder()
-    check_column(df, column_names=column_names, present=True)
-    df[f"{column_names}_enc"] = le.fit_transform(df[column_names])
+@dispatch(pd.DataFrame, str, str)
+def _factorize(df, column_name, suffix, **kwargs):  # noqa: F811
+    check_column(df, column_names=column_name, present=True)
+    df[f"{column_name}{suffix}"] = pd.factorize(df[column_name], **kwargs)[0]
     return df