Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
Paper
•
1908.10084
•
Published
•
11
This is a sentence-transformers model finetuned from sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
SentenceTransformer(
(0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("Savoxism/paraphrase-multilingual-MiniLM-L12-v2-SFT")
# Run inference
sentences = [
'cơ sở dữ liệu về cư trú là tài sản quốc gia do bộ công an thống nhất quản lý đúng hay sai',
'Cơ sở dữ liệu về cư trú 1. Cơ sở dữ liệu về cư trú được xây dựng để phục vụ công tác quản lý nhà nước về cư trú, là tài sản quốc gia do Bộ Công an thống nhất quản lý. 2. Cơ sở dữ liệu về cư trú phải bảo đảm kết nối với Cơ sở dữ liệu quốc gia về dân cư và cơ sở dữ liệu khác theo quy định của pháp luật, đáp ứng chuẩn về cơ sở dữ liệu và tiêu chuẩn, quy chuẩn kỹ thuật công nghệ thông tin. 3. Việc thu thập, lưu trữ, xử lý, bảo vệ và khai thác, sử dụng dữ liệu về cư trú phải đáp ứng các yêu cầu sau đây: a) Ứng dụng công nghệ thông tin để thu thập, lưu trữ, xử lý thông tin về cư trú đầy đủ, nhanh chóng, chính xác; bảo đảm an toàn dữ liệu theo đúng nguyên tắc, định dạng hệ cơ sở dữ liệu; b) Bảo đảm an toàn các thiết bị lưu trữ thông tin, tài liệu về cư trú; c) Bảo vệ an ninh mạng, an ninh thông tin về cư trú trên mạng máy tính; bảo đảm an toàn thông tin, tài liệu lưu trữ trong Cơ sở dữ liệu về cư trú; phòng, chống các hành vi tấn công, xâm nhập, đánh cắp thông tin, phá hoại hoặc làm hư hỏng dữ liệu về cư trú; d) Mọi sự truy nhập đến Cơ sở dữ liệu về cư trú để thay đổi thông tin về cư trú của công dân phải được sự phê duyệt của thủ trưởng cơ quan đăng ký cư trú hoặc cơ quan khác có thẩm quyền; đ) Cơ quan, tổ chức, cá nhân không được cung cấp, trao đổi, sao chép, in trái phép thông tin, tài liệu từ Cơ sở dữ liệu về cư trú. 4. Chính phủ quy định chi tiết việc xây dựng, quản lý, sử dụng Cơ sở dữ liệu về cư trú, thông tin trong Cơ sở dữ liệu về cư trú và việc cung cấp, trao đổi thông tin, tài liệu từ Cơ sở dữ liệu về cư trú cho cơ quan, tổ chức, cá nhân.',
'Trách nhiệm quản lý nhà nước về cư trú 1. Chính phủ thống nhất quản lý nhà nước về cư trú trong phạm vi cả nước. 2. Bộ Công an chịu trách nhiệm trước Chính phủ thực hiện quản lý nhà nước về cư trú và có trách nhiệm sau đây: a) Xây dựng và trình Chính phủ ban hành hoặc ban hành theo thẩm quyền văn bản quy phạm pháp luật về cư trú; b) Chỉ đạo và tổ chức thực hiện các văn bản quy phạm pháp luật về cư trú; tổ chức việc đăng ký, quản lý cư trú trên toàn quốc, cập nhật thông tin về cư trú vào Cơ sở dữ liệu quốc gia về dân cư, Cơ sở dữ liệu về cư trú; c) Đình chỉ, bãi bỏ theo thẩm quyền hoặc kiến nghị cấp có thẩm quyền bãi bỏ quy định về quản lý cư trú trái với quy định của Luật này; d) Ban hành, in ấn và quản lý tờ khai thay đổi thông tin cư trú và các giấy tờ, tài liệu, biểu mẫu, sổ sách về cư trú; đ) Trang bị máy móc, phương tiện, thiết bị; bố trí, đào tạo, bồi dưỡng cán bộ làm công tác quản lý cư trú; e) Thống kê nhà nước về cư trú, tổng kết, nghiên cứu khoa học về quản lý cư trú, tổ chức tuyên truyền, phổ biến, giáo dục pháp luật về cư trú; g) Kiểm tra, thanh tra, giải quyết khiếu nại, tố cáo và xử lý vi phạm pháp luật về cư trú theo quy định của pháp luật; h) Hợp tác quốc tế về quản lý cư trú. 3. Bộ, cơ quan ngang Bộ, trong phạm vi nhiệm vụ, quyền hạn của mình, có trách nhiệm thực hiện quản lý nhà nước về cư trú theo sự phân công của Chính phủ. 4. Ủy ban nhân dân các cấp, trong phạm vi nhiệm vụ, quyền hạn của mình, có trách nhiệm sau đây: a) Tổ chức thực hiện các văn bản quy phạm pháp luật về cư trú tại địa phương; b) Chỉ đạo việc phối hợp giữa các cơ quan hữu quan ở địa phương về quản lý cư trú; c) Tổ chức tuyên truyền, phổ biến, giáo dục pháp luật về cư trú; d) Kiểm tra, thanh tra, giải quyết khiếu nại, tố cáo và xử lý vi phạm pháp luật về cư trú theo quy định của pháp luật.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
sentence_0, sentence_1, and sentence_2| sentence_0 | sentence_1 | sentence_2 | |
|---|---|---|---|
| type | string | string | string |
| details |
|
|
|
| sentence_0 | sentence_1 | sentence_2 |
|---|---|---|
mục tiêu của giáo dục nghề nghiệp là gì |
Mục tiêu của giáo dục nghề nghiệp Giáo dục nghề nghiệp nhằm đào tạo nhân lực trực tiếp cho sản xuất, kinh doanh và dịch vụ, có năng lực hành nghề tương ứng với trình độ đào tạo; có đạo đức, sức khỏe; có trách nhiệm nghề nghiệp; có khả năng sáng tạo, thích ứng với môi trường hội nhập quốc tế; bảo đảm nâng cao năng suất, chất lượng lao động; tạo điều kiện cho người học sau khi hoàn thành khóa học có khả năng tìm việc làm, tự tạo việc làm hoặc học trình độ cao hơn. |
Giải thích từ ngữ Trong Luật này, các từ ngữ dưới đây được hiểu như sau: 1. Giáo dục chính quy là giáo dục theo khóa học trong cơ sở giáo dục để thực hiện một chương trình giáo dục nhất định, được thiết lập theo mục tiêu của các cấp học, trình độ đào tạo và được cấp văn bằng của hệ thống giáo dục quốc dân. 2. Giáo dục thường xuyên là giáo dục để thực hiện một chương trình giáo dục nhất định, được tổ chức linh hoạt về hình thức thực hiện chương trình, thời gian, phương pháp, địa điểm, đáp ứng nhu cầu học tập suốt đời của người học. 3. Kiểm định chất lượng giáo dục là hoạt động đánh giá, công nhận cơ sở giáo dục hoặc chương trình đào tạo đạt tiêu chuẩn chất lượng giáo dục do cơ quan, tổ chức có thẩm quyền ban hành. 4. Niên chế là hình thức tổ chức quá trình giáo dục, đào tạo theo năm học. 5. Tín chỉ là đơn vị dùng để đo lường khối lượng kiến thức, kỹ năng và kết quả học tập đã tích lũy được trong một khoảng thời gian nhất định. 6. Mô-đun là đơn vị học tập được tích hợp giữa kiến thức, kỹ... |
hành vi nào sau đây không thuộc hành vi bị nghiêm cấm về cư trú |
Các hành vi bị nghiêm cấm về cư trú 1. Cản trở công dân thực hiện quyền tự do cư trú. 2. Lạm dụng việc sử dụng thông tin về nơi thường trú, nơi tạm trú làm điều kiện để hạn chế quyền, lợi ích hợp pháp của công dân. 3. Đưa, môi giới, nhận hối lộ trong việc đăng ký, quản lý cư trú. 4. Không tiếp nhận, trì hoãn việc tiếp nhận hồ sơ, giấy tờ, tài liệu, thông tin đăng ký cư trú hoặc có hành vi nhũng nhiễu khác; không thực hiện, thực hiện không đúng thời hạn đăng ký cư trú cho công dân khi hồ sơ đủ điều kiện đăng ký cư trú; xóa đăng ký thường trú, đăng ký tạm trú trái với quy định của pháp luật. 5. Thu, quản lý, sử dụng lệ phí đăng ký cư trú trái với quy định của pháp luật. 6. Tự đặt ra thời hạn, thủ tục, giấy tờ, tài liệu, biểu mẫu trái với quy định của pháp luật hoặc làm sai lệch thông tin, sổ sách, hồ sơ về cư trú. 7. Cố ý cấp hoặc từ chối cấp giấy tờ, tài liệu về cư trú trái với quy định của pháp luật. 8. Lợi dụng việc thực hiện quyền tự do cư trú để xâm phạm lợi ích của Nhà nước, quyề... |
Giải thích từ ngữ Trong Luật này, các từ ngữ dưới đây được hiểu như sau: 1. Chỗ ở hợp pháp là nơi được sử dụng để sinh sống, thuộc quyền sở hữu hoặc quyền sử dụng của công dân, bao gồm nhà ở, tàu, thuyền, phương tiện khác có khả năng di chuyển hoặc chỗ ở khác theo quy định của pháp luật. 2. Cư trú là việc công dân sinh sống tại một địa điểm thuộc đơn vị hành chính cấp xã hoặc đơn vị hành chính cấp huyện ở nơi không có đơn vị hành chính cấp xã (sau đây gọi chung là đơn vị hành chính cấp xã). 3. Cơ sở dữ liệu về cư trú là cơ sở dữ liệu chuyên ngành, tập hợp thông tin về cư trú của công dân, được số hóa, lưu trữ, quản lý bằng cơ sở hạ tầng thông tin, được kết nối, chia sẻ với Cơ sở dữ liệu quốc gia về dân cư và cơ sở dữ liệu khác theo quy định của pháp luật. 4. Cơ quan đăng ký cư trú là cơ quan quản lý cư trú trực tiếp thực hiện việc đăng ký cư trú của công dân, bao gồm Công an xã, phường, thị trấn; Công an huyện, quận, thị xã, thành phố thuộc tỉnh, thành phố thuộc thành phố trực thuộc tr... |
thời hạn quản lý người sử dụng trái phép chất ma túy là bao lâu kể từ ngày chủ tịch ủy ban nhân dân cấp xã phường ra quyết định quản lý |
Quản lý người sử dụng trái phép chất ma túy 1. Quản lý người sử dụng trái phép chất ma túy là biện pháp phòng ngừa nhằm giúp người sử dụng trái phép chất ma túy không tiếp tục sử dụng trái phép chất ma túy, phòng ngừa các hành vi vi phạm pháp luật của họ. Quản lý người sử dụng trái phép chất ma túy không phải là biện pháp xử lý hành chính. 2. Thời hạn quản lý người sử dụng trái phép chất ma túy là 01 năm kể từ ngày Chủ tịch Ủy ban nhân dân cấp xã ra quyết định quản lý. 3. Nội dung quản lý người sử dụng trái phép chất ma túy bao gồm: a) Tư vấn, động viên, giáo dục, giúp đỡ người sử dụng trái phép chất ma túy để họ không tiếp tục sử dụng trái phép chất ma túy; b) Xét nghiệm chất ma túy trong cơ thể; c) Ngăn chặn người sử dụng trái phép chất ma túy có hành vi gây mất trật tự, an toàn xã hội. 4. Trong thời hạn 03 ngày làm việc kể từ ngày nhận được kết quả xét nghiệm dương tính của người cư trú tại địa phương, Chủ tịch Ủy ban nhân dân cấp xã có trách nhiệm ra quyết định và tổ chức quản lý n... |
Biện pháp can thiệp giảm tác hại đối với người sử dụng trái phép chất ma túy và người nghiện ma túy 1. Biện pháp can thiệp giảm tác hại đối với người sử dụng trái phép chất ma túy và người nghiện ma túy là biện pháp làm giảm tác hại liên quan đến hành vi sử dụng trái phép chất ma túy gây ra cho bản thân, gia đình và cộng đồng. 2. Biện pháp can thiệp giảm tác hại đối với người sử dụng trái phép chất ma túy và người nghiện ma túy bao gồm: a) Điều trị nghiện các chất dạng thuốc phiện bằng thuốc thay thế; b) Các biện pháp khác theo quy định của Chính phủ. |
TripletLoss with these parameters:{
"distance_metric": "TripletDistanceMetric.COSINE",
"triplet_margin": 0.5
}
per_device_train_batch_size: 64per_device_eval_batch_size: 64num_train_epochs: 4fp16: Truemulti_dataset_batch_sampler: round_robinoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: noprediction_loss_only: Trueper_device_train_batch_size: 64per_device_eval_batch_size: 64per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 5e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1num_train_epochs: 4max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.0warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Truefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Falseignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: batch_samplermulti_dataset_batch_sampler: round_robin@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{hermans2017defense,
title={In Defense of the Triplet Loss for Person Re-Identification},
author={Alexander Hermans and Lucas Beyer and Bastian Leibe},
year={2017},
eprint={1703.07737},
archivePrefix={arXiv},
primaryClass={cs.CV}
}