My Datasets Repository

This repository contains various datasets for data analysis, machine learning, and educational purposes. Below is a brief description of each dataset available in this repository.

Available Datasets

1. BMI_Data.csv

Contains Body Mass Index (BMI) data.
Useful for health and fitness analysis.

2. departments.csv

Contains department-related information.
Useful for organizational data processing.

3. employees.csv

Contains employee details.
Can be used for HR analytics and workforce management.

4. iris.csv

Classic Iris dataset for machine learning.
Contains different species of iris flowers with their measurements.

5. item_similarity_df.csv

Contains item similarity data.
Useful for recommendation system development.

6. movies.csv

Dataset containing information about movies.
Useful for movie recommendation models.

7. music_genre.csv

Contains music genre classification data.
Can be used for genre prediction models.

8. nielit.patt

Not a database it's for AVR custom Marker

9. pandas.csv

Sample dataset for practicing pandas library operations.
Useful for learning data manipulation.

10. pandas_tutorial1.csv

Another dataset for pandas tutorials.
Contains structured data for training purposes.

11. ratings.csv

Contains user ratings for various items.
Useful for collaborative filtering and recommendation systems.

12. sample.csv

A sample dataset.
Can be used for testing and learning purposes.

13. test.csv

A test dataset.
Used for validation and experimentation.

Usage

These datasets can be used for:

Machine learning projects
Data analysis and visualization
Educational and tutorial purposes

How to Contribute

If you have additional datasets to contribute, feel free to upload them and update this README with the necessary descriptions.

License

These datasets are provided for educational and research purposes. Please check individual datasets for any specific license information.

For any questions or suggestions, feel free to raise an issue or contact Lovnish Verma.

📊 Machine Learning Dataset Sources

A list of public datasets for machine learning, AI, data science, and analytics projects.

🔹 General-Purpose ML Repositories

UCI Machine Learning Repository – Classic datasets used in academic ML research.
Kaggle Datasets – User-contributed datasets with competitions and notebooks.
Google Dataset Search – Dataset-specific search engine.
AWS Open Data Registry – Public datasets hosted on AWS.
Microsoft Azure Open Datasets – Curated datasets for training on Azure.
OpenML – Collaborative platform for sharing datasets and experiments.
Papers with Code – Datasets – ML benchmarks tied to research papers.
Hugging Face Datasets – NLP, vision, and multimodal datasets.
Zenodo – Scientific datasets with citation support.
Figshare – Open-access research datasets.
Data World – Community platform for data sharing.
Awesome Public Datasets (GitHub) – Curated list across domains.
FiveThirtyEight Data – Datasets used in data journalism.
Quandl – Financial and economic data.

🔹 Government & Open Data Portals

India AI – Dataset Repository – Indian AI project datasets.
Data.gov.in – Indian government open data.
Data.gov (USA) – US federal open datasets.
EU Open Data Portal – Data from European institutions.
UK Data Service – Economic and social research datasets (UK).
Canada Open Government – Datasets from Canada.
Australia Data Portal – Australian government datasets.

🔹 Domain-Specific Datasets

🖼️ Computer Vision

ImageNet – Large-scale image classification dataset.
COCO Dataset – Object detection, segmentation, and captioning.
Open Images Dataset – Annotated image data.
Stanford Dogs Dataset – Fine-grained image classification.

🌐 Web & NLP

Common Crawl – Large-scale web crawl data.
Wikipedia Dumps – Raw Wikipedia text.
Project Gutenberg – Public domain books for NLP.
TREC Question Classification – NLP benchmark dataset.

🧬 Bio, Medical & Health

PhysioNet – Physiological and clinical data.
MIMIC-III – ICU medical data (de-identified).
NIH Biomedical Data – NIH open data portal.
Cancer Imaging Archive – Medical imaging data for cancer research.

🗣️ Speech & Audio

OpenSLR – Speech recognition datasets.
LibriSpeech ASR – Audiobook dataset for speech recognition.

🗺️ Maps & Geospatial

OpenStreetMap (Geofabrik) – Extracts of OSM data.
Google Open Buildings – Global building footprints.

✅ Quick Access Table

Name	Domain	Link
UCI ML Repo	General	Link
Kaggle	General	Link
IndiaAI	Govt (India)	Link
Data.gov.in	Govt (India)	Link
Data.gov	Govt (USA)	Link
Data World	General	Link
Hugging Face	NLP/ML	Link
Papers with Code	Benchmarks	Link
Zenodo	Research	Link

📌 Tip

For code integration and automatic downloads, you can often use Python libraries such as:

from datasets import load_dataset

dataset = load_dataset("imdb")  # Hugging Face example

You can also automate downloads from Kaggle via API:

kaggle datasets download -d username/dataset-name

Feel free to contribute more sources via pull request!

Name		Name	Last commit message	Last commit date
Latest commit History 30 Commits
magic+gamma+telescope		magic+gamma+telescope
BMI_Data.csv		BMI_Data.csv
Boston.csv		Boston.csv
Employee-Attrition.csv		Employee-Attrition.csv
First_Health_Camp_Attended.csv		First_Health_Camp_Attended.csv
Fish.csv		Fish.csv
Good_resume_template.doc		Good_resume_template.doc
Health_Camp_Detail.csv		Health_Camp_Detail.csv
Importing_Datasets_in_Google_Colab_using_pandas.ipynb		Importing_Datasets_in_Google_Colab_using_pandas.ipynb
LE.csv		LE.csv
Life Expectancy Data.csv		Life Expectancy Data.csv
Mall_Customers.csv		Mall_Customers.csv
Mall_Customers_updated.csv		Mall_Customers_updated.csv
Patient_Profile.csv		Patient_Profile.csv
README.md		README.md
Salaries.csv		Salaries.csv
Second_Health_Camp_Attended.csv		Second_Health_Camp_Attended.csv
SeoulBikeData.csv		SeoulBikeData.csv
Third_Health_Camp_Attended.csv		Third_Health_Camp_Attended.csv
Train.csv		Train.csv
car_evaluation.csv		car_evaluation.csv
data.csv		data.csv
dataset-car-price.csv		dataset-car-price.csv
departments.csv		departments.csv
diabetes_new.csv		diabetes_new.csv
employees.csv		employees.csv
flights.csv		flights.csv
german_credit.csv		german_credit.csv
housing.csv		housing.csv
insurance.csv		insurance.csv
iris.csv		iris.csv
iriswithheaders.csv		iriswithheaders.csv
item_similarity_df.csv		item_similarity_df.csv
laptop.csv		laptop.csv
matplotlibcsv.csv		matplotlibcsv.csv
movies.csv		movies.csv
music_genre.csv		music_genre.csv
nielit.patt		nielit.patt
pandas.csv		pandas.csv
pandas_tutorial1.csv		pandas_tutorial1.csv
ratings.csv		ratings.csv
sample.csv		sample.csv
spam.csv		spam.csv
test.csv		test.csv
test_only.csv		test_only.csv
testdata.csv		testdata.csv
titanic.csv		titanic.csv

Uh oh!

lovnishverma/datasets

Folders and files

Latest commit

History

Repository files navigation

My Datasets Repository

Available Datasets

1. BMI_Data.csv

2. departments.csv

3. employees.csv

4. iris.csv

5. item_similarity_df.csv

6. movies.csv

7. music_genre.csv

8. nielit.patt

9. pandas.csv

10. pandas_tutorial1.csv

11. ratings.csv

12. sample.csv

13. test.csv

Usage

How to Contribute

License

📊 Machine Learning Dataset Sources

🔹 General-Purpose ML Repositories

🔹 Government & Open Data Portals

🔹 Domain-Specific Datasets

🖼️ Computer Vision

🌐 Web & NLP

🧬 Bio, Medical & Health

🗣️ Speech & Audio

🗺️ Maps & Geospatial

✅ Quick Access Table

📌 Tip

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Sponsor this project

Uh oh!

Packages 0

Languages

Packages