SetFit with JohanHeinsen/Old_News_Segmentation_SBERT_V0.1

This is a SetFit model that can be used for Text Classification. This SetFit model uses JohanHeinsen/Old_News_Segmentation_SBERT_V0.1 as the Sentence Transformer embedding model. A LogisticRegression instance is used for classification.

The model has been trained using an efficient few-shot learning technique that involves:

  1. Fine-tuning a Sentence Transformer with contrastive learning.
  2. Training a classification head with features from the fine-tuned Sentence Transformer.

Model Details

Model Description

Model Sources

Model Labels

Label Examples
0
  • '3) Da den i P. E. 146-7 ommeldte Bagersvend, Theodor Victor Holst Wildenrath endnu ikke er anholdt, gjentages Efterlysningen. (Falsters vestre Herred.'
  • '3) En Mandsperson, nogle og 20 Aar gl., middel at Højde og Bygning, lyst Haar, intet Skjæg, iført blaat Tøj og Kaskjet med blank Skygge, og er noget tunghør, sigtes for Tyveri. (St. 2).'
  • '6) En Sømandsdreng ved Navn Niels, 17 a 18 Aar gl., formentlig hjemmehørende i Randers, blond, middel af Højde og Bygning, iført blaa Jakkeklædning og flad Kaskjet med blanke Knapper, sigtes for Tyveri ombord i Skib. (St. 1, 917).'
1
  • '3) Ole Mele, Skræder, hjemmehørende i Stavanger, omtr. 35 Aar gl., middel af Væxt og Bygning, lyst Haar samt Over- og Fipskjæg, blegAnsigtsfarve, – sigtes for bedrageligt Forholdi Helsingør. Det bemærkes, at han tidligere har faret tilsøes og at det antages, at han i Tirsdags har begivet sig hertil Staden. Anholdes til Byfogden i Helsingør.'
  • 'Efterlysninger. Matros William Andersson, født i Gøteborg, 28 Aar gl., over Middelhøjde, blondt Haar, lidt Over- og Hageskjæg, iført blaa uldne Benklæder, do. Vest og gl. falmet Stortrøje samt skotsk Hue med Skygge, sigtes for Hyrebesvigelse. Anholdes og Underretning hertil. (H. St., 3250.)'
  • '4) Tre svenske Jernbanearbejdere: a) Måns Månsson, f. den 18. Juli 1857 i CimrisChristianstads Lehn, middel af Højde og Bygning, blaa Øjne, lyst Haar; b) Anders Larsson, født den 17. Septbr. 1851 i Svedall, Malmøhus Lehn, middel af Højde, stærk Bygning, blaa Øjne, lyst Haar, og c) Nils Olsson, f. den 5. Marts 1861 i Anderløff, Malmøhus Lehn, middel af Højde og Bygning, blaa Øjne, blondt Haar, alle anstændig klædte i mørke Klæder og Læderfodtøj, forsynede med ny Opholdsbog fra By- og Herredskontoret i Faaborg, ere Natten til den 15. d. M. bortrømte fra deres Logis i Hillerslev, efterladende en Gjæld for Kost og Logis henholdsvis 2 Kr. 40 Øre, 3 Kr. 50 Øre og 3 Kr. 75 Øre, og have, dog muligviis paa Skrømt, omtalt at ville søge Arbeide i eller ved Kjøbenhavn da de meldte Afgang for vedkommende Politiassistent. I Antræffelsestilfælde bedes de affordret de skyldige Beløb, samt, saafremt dette ikke betales, anholdte og Underretning meddelt til Muckadell Birk.'

Evaluation

Metrics

Label Accuracy F1 Precision Recall
all 0.9688 0.8704 0.8545 0.8868

Uses

Direct Use for Inference

First install the SetFit library:

pip install setfit

Then you can load this model and run inference.

from setfit import SetFitModel

# Download from the 🤗 Hub
model = SetFitModel.from_pretrained("setfit_model_id")
# Run inference
preds = model("3) Pigen Dagmar Schrøder, Datter af Privatvægter Frederik Schrøder, Istedgade 6, 2. Sal, er den 24. Ds. bortgaaet fra Hjemmet. Hun er 12. Aar gl., svær af Bygning, har blondt Haar (Pandehaar, var iført rødbrun Nederdel, sort Liv, Sko og Sivhat med Blondebesætning. (H. St.)")

Training Details

Training Set Metrics

Training set Min Median Max
Word count 7 55.4928 497
Label Training Sample Count
0 938
1 105

Training Hyperparameters

  • batch_size: (24, 24)
  • num_epochs: (1, 1)
  • max_steps: -1
  • sampling_strategy: oversampling
  • num_iterations: 10
  • body_learning_rate: (2e-05, 2e-05)
  • head_learning_rate: 2e-05
  • loss: CosineSimilarityLoss
  • distance_metric: cosine_distance
  • margin: 0.25
  • end_to_end: False
  • use_amp: False
  • warmup_proportion: 0.1
  • l2_weight: 0.01
  • seed: 42
  • eval_max_steps: -1
  • load_best_model_at_end: False

Training Results

Epoch Step Training Loss Validation Loss
0.0011 1 0.3025 -
0.0575 50 0.2703 -
0.1149 100 0.0787 -
0.1724 150 0.0277 -
0.2299 200 0.0231 -
0.2874 250 0.0143 -
0.3448 300 0.0048 -
0.4023 350 0.0078 -
0.4598 400 0.0029 -
0.5172 450 0.002 -
0.5747 500 0.0005 -
0.6322 550 0.0001 -
0.6897 600 0.0004 -
0.7471 650 0.0004 -
0.8046 700 0.0002 -
0.8621 750 0.0001 -
0.9195 800 0.0001 -
0.9770 850 0.0001 -

Framework Versions

  • Python: 3.11.12
  • SetFit: 1.1.3
  • Sentence Transformers: 4.1.0
  • Transformers: 4.51.3
  • PyTorch: 2.7.0
  • Datasets: 2.19.2
  • Tokenizers: 0.21.1

Citation

BibTeX

@article{https://doi.org/10.48550/arxiv.2209.11055,
    doi = {10.48550/ARXIV.2209.11055},
    url = {https://arxiv.org/abs/2209.11055},
    author = {Tunstall, Lewis and Reimers, Nils and Jo, Unso Eun Seo and Bates, Luke and Korat, Daniel and Wasserblat, Moshe and Pereg, Oren},
    keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
    title = {Efficient Few-Shot Learning Without Prompts},
    publisher = {arXiv},
    year = {2022},
    copyright = {Creative Commons Attribution 4.0 International}
}
Downloads last month
4
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for JohanHeinsen/PE_efterlyst_foreigner

Paper for JohanHeinsen/PE_efterlyst_foreigner

Evaluation results