151

samples

1,701

wavelengths

sources

targets

metadata

NIR

family

Dataset property explorer

Mean profile risk0.46

Highest axisArtefacts locaux · 1.00

Diagnostics8

Sources profiled1

Profile axes

Intégrité	0.00
Artefacts locaux	1.00
Bruit	0.00
Outliers PCA	0.42
Distance à la référence	0.86
Répétabilité	0.00
Baseline / forme	0.83
Structure multi-régimes	0.58

Diagnostic	Score	Force	Signaux	Interprétation probable
Splice / raccord détecteursX	0.78	forte	Spike rate 1.00, Jump rate 1.00, SNR non dégradé 1.00	Rupture aux jonctions de détecteurs, calibration locale ou sonde différente.
Erreur calibration / référence blancheX	0.61	moyenne	artefacts locaux 1.00, RMS/SAM référence 0.86, Baseline/mean/area 0.83	Décalage systématique entre campagnes, instruments ou référence blanche.
Erreur interpolation / rééchantillonnageX	0.59	moyenne	Spike rate 1.00, Jump rate 1.00, SNR normal/élevé 1.00	Artefacts numériques ou traitement spectral incorrect.
Signature VERA25-likeX	0.56	moyenne	Spike rate 1.00, Jump rate 1.00, RMS/SAM référence 0.86	Combinaison possible changement de sonde + splice, amplifiée par géométrie, fond ou calibration.
Fond différentX	0.54	moyenne	RMS/SAM référence 0.86, Baseline/mean/area 0.83, Mahalanobis / T2 0.42	Effet systématique du support, blanc/noir, transflectance ou environnement de mesure.
Différence de sonde / géométrieX	0.50	moyenne	RMS/SAM référence 0.86, Baseline/mean/area 0.83, Mahalanobis / T2 0.42	Modification de l'illumination, collecte, angle ou distance sonde-échantillon.
Spectre hors domaine valideX	0.42	moyenne	RMS/SAM référence 0.86, Structure PCA 0.58, Mahalanobis / T2 0.42	Variété, espèce, lot ou condition différente mais physiquement plausible.
Dataset multi-régimesX	0.41	faible	RMS/SAM référence 0.86, Structure PCA 0.58, Mahalanobis / T2 0.42	Mélange de campagnes, opérateurs, lots, setups ou sous-populations spectrales.

Spectral sources

recovered_spectra

X · NIR · unknown

Sampling

Wavelengths	1,701
Axis range	600–4,000 none
Mean spacing	2 none
Grid	uniform
Observations	151

Signal & quality

Value range	0.956 – 3.2
Mean range	1.19 – 2.54
Mean level	1.801
Area	6125
PTP	1.344
Noise RMS	0.00013312
SNR	1.4e+04
SNR dB	8e+01 dB
Dynamic range	1.34
Smoothness	0.001982
Saturated	0.0%
X-outliers	63

Integrity & artefacts

NaN ratio	0.00%
Inf count	0
Zero ratio	0.00%
Spike count	16,162
Spike rate	6.30%
Jump count	7,610
Jump rate	2.96%
Clip fraction	0.00%

Shape & reference

Baseline slope	-0.74681
Curvature RMS	0.0019305
D1 RMS	0.0079235
RMS to mean	0.13533
RMS p95	0.30065
SAM to mean	0.052641
SAM p95	0.11228
Affine offset p95	0.29838
Affine gain p95 Δ	0.15739
Affine residual p95	0.18608
Xcorr lag p95	0

Outliers & repeatability

PCA Q p95/median	2.6
Hotelling T2 p95/median	2.8
Mahalanobis H p95/median	1.7
Repeat groups	0

Dimensionality (PCA)

Effective rank	3.1
PCs → 95% var	5
PCs → 99% var	10
Top-10 cum. var	99.1%

Computed metric scores 29worst 1.00

Famille	Métrique calculée	Valeur	Score	Niveau	Interprétation dataset	Causes typiques	Calcul / scoring
Intégrité des données	`NaN ratio`integrity.nan_ratio	0%	0.00	faible	Spectre complet	Erreur acquisition/export	count(isnan(X)) / X.sizealert = min(1, nan_ratio / 0.05)
Intégrité des données	`Inf count`integrity.inf_count	0	0.00	faible	Normal	Calculs invalides	count(isinf(X))alert = min(1, inf_count / 1)
Intégrité des données	`Zero ratio`integrity.zero_ratio	0%	0.00	faible	Normal	Export, saturation	count(X == 0) / count(finite X)alert = min(1, zero_ratio / 0.05)
Amplitude globale	`Mean reflectance`amplitude.mean_reflectance	1.8014	0.83	fort	Valeur atypique: Trop clair / fond visible ou Trop sombre	Fond, géométrie	mean(X finite)alert reuses baseline/shape drift because absolute reflectance ranges are technology-dependent
Amplitude globale	`Area under curve`amplitude.area_under_curve	6125	0.83	fort	Valeur atypique: Différence d'éclairement ou Normal	Distance sonde	trapezoid(mean_spectrum, spectral_axis)alert reuses baseline/shape drift because area scale depends on axis and units
Amplitude globale	`Peak-to-peak (PTP)`amplitude.peak_to_peak	1.3444	0.00	faible	Variabilité forte	Saturation	max(mean_spectrum) - min(mean_spectrum)alert increases when dynamic range is abnormally flat
Amplitude globale	`Variance`amplitude.variance	0.15532	0.00	faible	Normal ou hétérogène	Mauvais contact	var(X finite)alert increases when variance/dynamic range is abnormally flat
Bruit	`Noise RMS`noise.noise_rms	0.00013312	0.00	faible	Stable	Lampe, détecteur	median MAD(second derivative) * 1.4826 / sqrt(6)alert = noise_rms / signal_scale, saturated at 5%
Bruit	`SNR`noise.snr	13532	0.00	faible	Bon signal	Acquisition	mean(abs(X)) / noise_rmsalert decreases with SNR dB; >=40 dB is treated as low alert
Bruit	`Bandwise SNR`noise.bandwise_snr_min	413.42	0.00	faible	Zone fiable	Détecteur	min(abs(mean_spectrum) / local second-derivative noise)alert decreases with worst-band SNR dB; >=35 dB is treated as low alert
Artefacts locaux	`Spike count`artefacts.spike_count	16,162	1.00	fort	Artefacts	Cosmic rays, splice	count robust outliers in second derivativealert follows spike_rate, saturated at 1%
Artefacts locaux	`Spike rate`artefacts.spike_rate	6.3%	1.00	fort	Spectre suspect	Interpolation	spike_count / (n_samples * (n_features - 2))alert = min(1, spike_rate / 0.01)
Artefacts locaux	`Jump count`artefacts.jump_count	7,610	1.00	fort	Raccord détecteur	Splice	count robust outliers in first derivativealert follows jump_rate, saturated at 1%
Artefacts locaux	`Jump rate`artefacts.jump_rate	2.96%	1.00	fort	Problème spectral	Calibration	jump_count / (n_samples * (n_features - 1))alert = min(1, jump_rate / 0.01)
Artefacts locaux	`Clip fraction`artefacts.clip_fraction	0.000779%	0.00	faible	Normal	Détecteur saturé	fraction of finite cells equal to repeated min/max extremaalert = min(1, clip_fraction / 0.01)
Forme spectrale	`Baseline slope`shape.baseline_slope	-0.74681	0.83	fort	Dérive	Éclairement	linear slope of mean_spectrum over normalized axisalert = abs(slope / signal_scale), saturated at 0.5
Forme spectrale	`Curvature RMS`shape.curvature_rms	0.0019305	0.11	faible	Lisse	Fond, splice	median RMS(second derivative per spectrum)alert = curvature_rms / signal_scale, saturated at 1%
Forme spectrale	`D1 RMS`shape.d1_rms	0.0079235	0.09	faible	Plat	Biologie ou artefact	median RMS(first derivative per spectrum)alert = d1_rms / signal_scale, saturated at 5%
Outliers multivariés	`PCA Q (SPE)`outliers.pca_q_ratio	2.6079	0.33	faible	Conforme	Artefact, mélange	p95(Q/SPE residual) / median(Q/SPE residual)alert = min(1, pca_q_ratio / 8)
Outliers multivariés	`Hotelling T²`outliers.hotelling_t2_ratio	2.8114	0.35	faible	Central	Variabilité naturelle	p95(Hotelling T2) / median(Hotelling T2)alert = min(1, hotelling_t2_ratio / 8)
Outliers multivariés	`Mahalanobis H`outliers.mahalanobis_h_ratio	1.6767	0.42	faible	Population normale	Domaine différent	p95(sqrt(T2)) / median(sqrt(T2))alert = min(1, mahalanobis_h_ratio / 4)
Comparaison à référence	`RMS to mean spectrum`reference.rms_to_mean_spectrum_p95	0.30065	0.67	moyen	Spectre différent	Domain shift	p95 RMS distance to dataset mean spectrumalert = RMS_p95 / signal_scale, saturated at 25%
Comparaison à référence	`Spectral Angle Mapper (SAM)`reference.sam_to_mean_spectrum_p95	0.11228	0.32	faible	Similaire	Fond, géométrie	p95 spectral angle to dataset mean spectrumalert = min(1, SAM_p95 / 0.35 rad)
Répétabilité	`RMS intra-ID`repeatability.rms_intra_id	—	0.00	faible	Stable	Positionnement	median RMS distance to repeated-sample centroidalert = RMS_intra_ID / signal_scale, saturated at 10%
Répétabilité	`SAM intra-ID`repeatability.sam_intra_id	—	0.00	faible	Stable	Acquisition	median SAM to repeated-sample centroidalert = min(1, SAM_intra_ID / 0.15 rad)
Répétabilité	`CV intra-ID`repeatability.cv_intra_id	—	0.00	faible	Stable	Opérateur	median within-ID band CValert = min(1, CV_intra_ID / 0.25)
Structure du dataset	`PCA score density`structure.pca_score_density	0.37029	0.58	moyen	Sous-populations	Lots différents	1 / median kNN distance in PCA score spacealert follows density_cv/profile structure complexity, not raw density alone
Structure du dataset	`Local Outlier Factor (LOF)`structure.local_outlier_factor_p95	1.734	0.37	faible	Population normale	Cas rares	p95 approximate LOF from PCA-score kNN distancesalert = min(1, max(0, LOF_p95 - 1) / 2)
Structure du dataset	`Isolation Forest score`structure.isolation_forest_score_p95	0.54829	0.58	moyen	Spectre atypique	Diverses causes	p95 IsolationForest anomaly score on PCA scoresalert follows structure complexity; raw score is implementation-dependent

X-Y spectral correlation 14

Target	max \|r\|	axis @ max	mean \|r\|	\|r\| ≥ .5
al_ext_usda_a1056_mg_kg	0.655	2,998	0.463	54.6%
b_ext_mel3_mg_kg	0.963	1,638	0.572	64.0%
c_tot_usda_a622_w_pct	0.538	2,922	0.323	7.1%
ca_ext_usda_a1059_mg_kg	0.588	3,562	0.348	14.5%
cu_ext_usda_a1063_mg_kg	0.514	3,402	0.358	10.9%
fe_ext_usda_a1064_mg_kg	0.403	1,212	0.249	0.0%
k_ext_usda_a1065_mg_kg	0.418	1,230	0.213	0.0%
mg_ext_usda_a1066_mg_kg	0.637	1,228	0.39	19.4%
mn_ext_usda_a1067_mg_kg	0.405	2,678	0.259	0.0%
n_tot_usda_a623_w_pct	0.543	2,920	0.332	16.6%
oc_usda_c729_w_pct	0.536	2,922	0.321	4.8%
ph_h2o_usda_a268_index	0.156	814	0.0639	0.0%
s_ext_mel3_mg_kg	0.397	1,208	0.227	0.0%
zn_ext_usda_a1073_mg_kg	0.253	1,554	0.072	0.0%

Metric interpretation reference

Metric catalog 29

Famille	Métrique	Ce qu’elle détecte	Forte valeur =	Faible valeur =	Causes typiques	Calcul / score
Intégrité des données	`NaN ratio`	Données manquantes	Spectre corrompu	Spectre complet	Erreur acquisition/export	count(isnan(X)) / X.sizealert = min(1, nan_ratio / 0.05)
Intégrité des données	`Inf count`	Valeurs infinies	Corruption	Normal	Calculs invalides	count(isinf(X))alert = min(1, inf_count / 1)
Intégrité des données	`Zero ratio`	Colonnes ou cellules nulles	Spectre tronqué	Normal	Export, saturation	count(X == 0) / count(finite X)alert = min(1, zero_ratio / 0.05)
Amplitude globale	`Mean reflectance`	Niveau moyen	Trop clair / fond visible	Trop sombre	Fond, géométrie	mean(X finite)alert reuses baseline/shape drift because absolute reflectance ranges are technology-dependent
Amplitude globale	`Area under curve`	Intensité globale	Différence d'éclairement	Normal	Distance sonde	trapezoid(mean_spectrum, spectral_axis)alert reuses baseline/shape drift because area scale depends on axis and units
Amplitude globale	`Peak-to-peak (PTP)`	Dynamique	Variabilité forte	Spectre plat	Saturation	max(mean_spectrum) - min(mean_spectrum)alert increases when dynamic range is abnormally flat
Amplitude globale	`Variance`	Variabilité spectrale	Normal ou hétérogène	Spectre plat	Mauvais contact	var(X finite)alert increases when variance/dynamic range is abnormally flat
Bruit	`Noise RMS`	Bruit haute fréquence	Bruité	Stable	Lampe, détecteur	median MAD(second derivative) * 1.4826 / sqrt(6)alert = noise_rms / signal_scale, saturated at 5%
Bruit	`SNR`	Qualité signal	Bon signal	Mauvais signal	Acquisition	mean(abs(X)) / noise_rmsalert decreases with SNR dB; >=40 dB is treated as low alert
Bruit	`Bandwise SNR`	Bruit localisé	Zone fiable	Zone problématique	Détecteur	min(abs(mean_spectrum) / local second-derivative noise)alert decreases with worst-band SNR dB; >=35 dB is treated as low alert
Artefacts locaux	`Spike count`	Pics étroits	Artefacts	Spectre propre	Cosmic rays, splice	count robust outliers in second derivativealert follows spike_rate, saturated at 1%
Artefacts locaux	`Spike rate`	Densité de pics	Spectre suspect	Normal	Interpolation	spike_count / (n_samples * (n_features - 2))alert = min(1, spike_rate / 0.01)
Artefacts locaux	`Jump count`	Discontinuités	Raccord détecteur	Continu	Splice	count robust outliers in first derivativealert follows jump_rate, saturated at 1%
Artefacts locaux	`Jump rate`	Fréquence de sauts	Problème spectral	Normal	Calibration	jump_count / (n_samples * (n_features - 1))alert = min(1, jump_rate / 0.01)
Artefacts locaux	`Clip fraction`	Saturation	Clipping	Normal	Détecteur saturé	fraction of finite cells equal to repeated min/max extremaalert = min(1, clip_fraction / 0.01)
Forme spectrale	`Baseline slope`	Pente globale	Dérive	Stable	Éclairement	linear slope of mean_spectrum over normalized axisalert = abs(slope / signal_scale), saturated at 0.5
Forme spectrale	`Curvature RMS`	Courbure	Forme inhabituelle	Lisse	Fond, splice	median RMS(second derivative per spectrum)alert = curvature_rms / signal_scale, saturated at 1%
Forme spectrale	`D1 RMS`	Variabilité locale	Spectre structuré	Plat	Biologie ou artefact	median RMS(first derivative per spectrum)alert = d1_rms / signal_scale, saturated at 5%
Outliers multivariés	`PCA Q (SPE)`	Non expliqué par PCA	Spectre atypique	Conforme	Artefact, mélange	p95(Q/SPE residual) / median(Q/SPE residual)alert = min(1, pca_q_ratio / 8)
Outliers multivariés	`Hotelling T²`	Extrême dans PCA	Extrême mais cohérent	Central	Variabilité naturelle	p95(Hotelling T2) / median(Hotelling T2)alert = min(1, hotelling_t2_ratio / 8)
Outliers multivariés	`Mahalanobis H`	Distance au nuage	Outlier global	Population normale	Domaine différent	p95(sqrt(T2)) / median(sqrt(T2))alert = min(1, mahalanobis_h_ratio / 4)
Comparaison à référence	`RMS to mean spectrum`	Distance moyenne	Spectre différent	Typique	Domain shift	p95 RMS distance to dataset mean spectrumalert = RMS_p95 / signal_scale, saturated at 25%
Comparaison à référence	`Spectral Angle Mapper (SAM)`	Différence de forme	Forme différente	Similaire	Fond, géométrie	p95 spectral angle to dataset mean spectrumalert = min(1, SAM_p95 / 0.35 rad)
Répétabilité	`RMS intra-ID`	Reproductibilité	Mauvaise répétabilité	Stable	Positionnement	median RMS distance to repeated-sample centroidalert = RMS_intra_ID / signal_scale, saturated at 10%
Répétabilité	`SAM intra-ID`	Variation de forme	Instable	Stable	Acquisition	median SAM to repeated-sample centroidalert = min(1, SAM_intra_ID / 0.15 rad)
Répétabilité	`CV intra-ID`	Variabilité interne	Mauvais contrôle	Stable	Opérateur	median within-ID band CValert = min(1, CV_intra_ID / 0.25)
Structure du dataset	`PCA score density`	Clusters	Sous-populations	Homogène	Lots différents	1 / median kNN distance in PCA score spacealert follows density_cv/profile structure complexity, not raw density alone
Structure du dataset	`Local Outlier Factor (LOF)`	Anomalie locale	Spectre isolé	Population normale	Cas rares	p95 approximate LOF from PCA-score kNN distancesalert = min(1, max(0, LOF_p95 - 1) / 2)
Structure du dataset	`Isolation Forest score`	Anomalie globale	Spectre atypique	Normal	Diverses causes	p95 IsolationForest anomaly score on PCA scoresalert follows structure complexity; raw score is implementation-dependent

Technology-specific extensions

Technologie	Adaptations / métriques	Anomalies ciblées	Commentaire pratique
UV-Vis 300-1000 nm	Baseline, pente globale, dérive aux bords 300-350 et 900-1000; métriques par zones	Lumière parasite, mauvais blanc, saturation, faible signal aux extrémités	Les bords sont souvent instables; calculer aussi des scores edge/middle.
UV-Vis 300-1000 nm	Saturation / clipping proche absorbance max ou réflectance max	Signal écrêté	Très important si absorption forte.
UV-Vis 300-1000 nm	Red-edge, position de maximum, ratios de bandes si végétal	Décalage biologique ou artefact optique	Aide à distinguer changement réel et problème d'acquisition.
UV-Vis 300-1000 nm	Smoothness / roughness index	Bruit haute fréquence	Souvent plus informatif que le SNR seul.
MIR / ATR-FTIR	ATR contact quality index: intensité globale, aire totale, profondeur des bandes clés	Mauvais contact cristal-échantillon	Crucial: beaucoup d'anomalies viennent du contact ATR.
MIR / ATR-FTIR	CO2 / H2O atmospheric bands	Mauvaise correction atmosphérique	Pics parasites fréquents.
MIR / ATR-FTIR	Baseline curvature / rubber-band residual	Diffusion, contact, dérive baseline	Très utile avant PCA.
MIR / ATR-FTIR	Peak position shift	Mauvais alignement spectral / calibration	Important en FTIR car de petits shifts comptent.
MIR / ATR-FTIR	Band area ratios sur bandes connues	Spectre chimiquement incohérent	À adapter par matrice: polysaccharides, protéines, lipides, etc.
HS-MS	Total Ion Current (TIC), Base Peak Intensity (BPI)	Injection faible, ionisation instable	Équivalent MS du niveau global spectral.
HS-MS	Nombre de pics détectés	Spectre pauvre ou trop bruité	Trop peu = mauvais signal; trop = bruit/contamination.
HS-MS	Mass accuracy / m/z drift	Problème calibration masse	Fondamental en HRMS.
HS-MS	Retention time drift si LC/GC-MS	Dérive chromatographique	À suivre sur standards/QC pools.
HS-MS	Blank contamination score	Contaminants / carry-over	Comparer échantillons vs blancs.
HS-MS	Internal standard CV	Variabilité instrumentale	Très robuste si standards disponibles.
HS-MS	Missingness par feature	Instabilité de détection	Crucial pour filtrer les variables.
Avec répétitions	RMS intra-échantillon	Répétabilité globale	Applicable à toutes les technologies.
Avec répétitions	SAM / corrélation intra-échantillon	Répétabilité de forme	Très utile pour spectres.
Avec répétitions	CV intra-échantillon par bande / feature	Répétabilité locale	Détecte les zones instables.
Avec répétitions	ICC ou variance components	Part variance échantillon vs technique	Très utile si plusieurs répétitions par sample.
Avec répétitions	Distance au centroïde intra-ID	Répétition aberrante	Permet de flagger la mauvaise répétition plutôt que le sample entier.

Bug-hunting / supervised audits

Famille de bug potentiel	Méthodes à ajouter	Ce que ça détecte	État dans l’explorateur
Shift spectral global	Corrélation spectre moyen inter-dataset, DTW, cross-correlation, comparaison positions de pics	Décalage en longueur d'onde, mauvais alignement, interpolation différente	Partiellement calculé: cross-correlation lag et dispersion des positions de pics vs spectre moyen.
Baseline / offset / gain	Régression chaque spectre vs spectre moyen: x = a + b ref + residual; suivi de a, b, RMS résiduel	Offset additif, effet multiplicatif, dérive de baseline	Calculé dans reference.affine_*.
Mélange de lignes / mauvais appariement X-M-Y	Vérification index, hash des lignes, duplication ID, distance spectrale intra-ID, labels incohérents	Lignes mélangées, metadata mal alignées, Y attribué au mauvais spectre	Partiellement couvert par répétabilité intra-ID; checks index/hash à ajouter au pipeline canonical.
Fuite d'information / répétitions mal splitées	GroupKFold par sample_id vs StratifiedKFold random; audit des partitions par sample_id	Performance artificiellement bonne due aux répétitions	Nécessite splits et benchmark modèle; non calculé par la carte descriptive.
Label bugs	Échantillons proches en X mais Y différents, confident learning, erreurs systématiques FP/FN	Y inversés, erreurs de saisie, classes ambiguës	Nécessite Y et/ou modèle; recommandé pour l'explorateur supervisé.
Sous-domaines cachés	PCA/UMAP/t-SNE + clustering non supervisé + association avec dataset/Y/date/operator	Lots, campagnes, sondes, backgrounds non renseignés	Partiellement calculé par structure PCA/LOF; UMAP/t-SNE hors carte statique.
Artefacts localisés inconnus	Carte wavelength x dataset: différence moyenne, différence variance, KS par longueur d'onde	Régions spectrales anormales non anticipées	À calculer au niveau banque quand plusieurs datasets partagent un axe spectral.
Ruptures instrumentales	Discontinuités dans dérivées, changepoint detection	Splice, raccord détecteur, saut local non prévu	Calculé par jump/spike rates; changepoint plus avancé à ajouter.
Mélange / contamination spectrale	NMF / unmixing / reconstruction par convex hull	Composante externe: fond, plastique, sol	Non calculé automatiquement; nécessite hypothèses de composants ou grande bibliothèque.
Features instables mais prédictives	Importance modèle vs instabilité QC par variable	Modèle qui apprend un artefact plutôt qu'un signal biologique	Nécessite modèle supervisé; recommandé pour rapports de benchmark.

Variables

Targets 14

al_ext_usda_a1056_mg_kg

target · numeric

n / missing	151 / 0
Mean ± SD	694.1 ± 333
Median	628
Range	108 – 1,672
CV	0.48
Skew / kurtosis	0.78 / 0.46
Normal?	no

b_ext_mel3_mg_kg

target · numeric

n / missing	151 / 144
Mean ± SD	0.7714 ± 0.275
Median	0.8
Range	0.3 – 1
CV	0.357
Skew / kurtosis	-1 / -0.27

c_tot_usda_a622_w_pct

target · numeric

n / missing	151 / 0
Mean ± SD	0.8046 ± 0.714
Median	0.587
Range	0.097 – 4.406
CV	0.887
Skew / kurtosis	2.4 / 7.7
Normal?	no

ca_ext_usda_a1059_mg_kg

target · numeric

n / missing	151 / 0
Mean ± SD	833.8 ± 897
Median	525
Range	15 – 4,833
CV	1.08
Skew / kurtosis	1.9 / 4
Normal?	no

cu_ext_usda_a1063_mg_kg

target · numeric

n / missing	151 / 1
Mean ± SD	1.128 ± 1.16
Median	0.7
Range	0.1 – 6.29
CV	1.03
Skew / kurtosis	1.9 / 4.1
Normal?	no

fe_ext_usda_a1064_mg_kg

target · numeric

n / missing	151 / 0
Mean ± SD	135.9 ± 108
Median	98
Range	24 – 578
CV	0.794
Skew / kurtosis	1.9 / 3.7
Normal?	no

k_ext_usda_a1065_mg_kg

target · numeric

n / missing	151 / 1
Mean ± SD	63.73 ± 59.7
Median	45.5
Range	6 – 416
CV	0.937
Skew / kurtosis	2.6 / 9.7
Normal?	no

mg_ext_usda_a1066_mg_kg

target · numeric

n / missing	151 / 0
Mean ± SD	185.2 ± 216
Median	115
Range	2 – 1,351
CV	1.17
Skew / kurtosis	2.6 / 8.6
Normal?	no

mn_ext_usda_a1067_mg_kg

target · numeric

n / missing	151 / 0
Mean ± SD	96.26 ± 98.1
Median	59.1
Range	0.7 – 509.9
CV	1.02
Skew / kurtosis	1.8 / 3.8
Normal?	no

n_tot_usda_a623_w_pct

target · numeric

n / missing	151 / 0
Mean ± SD	0.06857 ± 0.0651
Median	0.051
Range	0.008 – 0.428
CV	0.949
Skew / kurtosis	2.8 / 11
Normal?	no

oc_usda_c729_w_pct

target · numeric

n / missing	151 / 0
Mean ± SD	0.8005 ± 0.71
Median	0.584
Range	0.097 – 4.396
CV	0.887
Skew / kurtosis	2.4 / 7.8
Normal?	no

ph_h2o_usda_a268_index

target · numeric

n / missing	151 / 0
Mean ± SD	5.871 ± 0.774
Median	5.87
Range	4.1 – 8.32
CV	0.132
Skew / kurtosis	0.6 / 0.65
Normal?	no

s_ext_mel3_mg_kg

target · numeric

n / missing	151 / 0
Mean ± SD	6.344 ± 10
Median	3
Range	1 – 84
CV	1.58
Skew / kurtosis	4.8 / 29
Normal?	no

zn_ext_usda_a1073_mg_kg

target · numeric

n / missing	151 / 13
Mean ± SD	1.526 ± 3.34
Median	0.5
Range	0.09 – 30.8
CV	2.19
Skew / kurtosis	6 / 46
Normal?	no

Metadata 4

ID_sample

metadata · categorical

n / missing	151 / 0
Classes	151
Balance (entropy)	1
Imbalance ratio	1
Top class	e4003f03c9444aaae892bbd452c507cd (1)

scan_local_id

metadata · categorical

n / missing	151 / 0
Classes	151
Balance (entropy)	1
Imbalance ratio	1
Top class	GHBADISTDF3D5DFG (1)

raw_label

metadata · categorical

n / missing	151 / 0
Classes	94
Balance (entropy)	0.97
Imbalance ratio	5
Top class	0.031 (5)

reference_value

metadata · numeric

n / missing	151 / 0
Mean ± SD	0.06857 ± 0.0651
Median	0.051
Range	0.008 – 0.428
CV	0.949
Skew / kurtosis	2.8 / 11
Normal?	no

Constant metadata 16

SpectralRep1
datasetOSSL snapshot v1.2
collection_nameossl_mir
dataset_codeAFSIS2.SSL
dataset_titleTanSIS, NiSIS and GhanSIS (AfSIS-II) SSL
dataset_ownerthe World Agroforestry Centre (ICRAF) and Rothamsted Research (RRES)
dataset_slugAFSIS2.SSL
task_typeregression
trait_headern_tot_usda_a623_w_pct
trait_header_originaln.tot_usda.a623_w.pct
spectral_kindmir
scan_model_nameBruker Alpha 1 ZnSe
scan_model_codeBruker_Alpha_1_ZnSe
feature_count_per_dimension1,701
dimensions1D
wavelength_noteossl_mir_600_4000_cm_minus_1_step_2

50 variable(s) omitted (no recorded values).

Alignment

Alignment level	observation
Sample id available	no
Samples	151
Observations (total)	151
Reps per sample	min 1 · mean 1 · max 1

Splits

original	all: 151 documented · not applied

Provenance & citation

Contributor	OSSL_NIRS
Origin · url [open]	https://storage.googleapis.com/soilspec4gg-public/ossl_mir_L0_v1.2.csv.gz
Origin · url [open]	https://storage.googleapis.com/soilspec4gg-public/ossl_visnir_L0_v1.2.csv.gz
Origin · url [open]	https://storage.googleapis.com/soilspec4gg-public/ossl_soilsite_L0_v1.2.csv.gz
Origin · url [open]	https://storage.googleapis.com/soilspec4gg-public/ossl_soillab_L1_v1.2.csv.gz
Origin · script [manual]	source_to_standard.py — standardization script (maintainer-only)

Governance & integrity

Tier	private
License	LicenseRef-not-cleared
Permitted use	Research and benchmarking; private use only.
Access policy	Manual download / private-use-only per source.
Redistribution	Recovered from local initial-source exports; rights not cleared for redistribution.
Content version	1.0.0
Schema / protocol	2.0
Content hash	`b9add7a941feabe6…`
Processing hash	`7100e5b4f9b7620e…`
Metadata hash	`fc9e53bd8023ddeb…`

Load this dataset

# pip install nirs4all-datasets
from nirs4all_datasets import get

# private dataset — export requires a Dataverse token
ds = get("ossl_afsis2_mir_soil_all_y", token="…")
X, y = ds.x(), ds.y()
print(X.shape, y.shape)

Metadata downloads are available for public datasets only. The dataset bytes are never served here — fetch them from the origin / DOI above.

ossl afsis2 mir soil all y

Dataset property explorer

Profile axes

Spectral sources

recovered_spectra

Sampling

Signal & quality

Integrity & artefacts

Shape & reference

Outliers & repeatability

Dimensionality (PCA)

Metric interpretation reference

Variables

Targets 14

al_ext_usda_a1056_mg_kg

b_ext_mel3_mg_kg

c_tot_usda_a622_w_pct

ca_ext_usda_a1059_mg_kg

cu_ext_usda_a1063_mg_kg

fe_ext_usda_a1064_mg_kg

k_ext_usda_a1065_mg_kg

mg_ext_usda_a1066_mg_kg

mn_ext_usda_a1067_mg_kg

n_tot_usda_a623_w_pct

oc_usda_c729_w_pct

ph_h2o_usda_a268_index

s_ext_mel3_mg_kg

zn_ext_usda_a1073_mg_kg

Metadata 4

ID_sample

scan_local_id

raw_label

reference_value

Alignment

Splits

Provenance & citation

Governance & integrity

Load this dataset